
リンゴの皮をまだむけないSoraが魅せた可能性
Soraの限界と可能性
Soraはリンゴの皮をむけません。何度か検証を行いましたが、Soraではリンゴの皮をむくような複雑な動作を正確に再現することはできませんでした。プロンプトの細部を精密に調整すれば、理論上は可能かもしれませんが、現時点では表層的な変更だけでは期待通りの結果を得るのは厳しいようです。
そもそも、リンゴの皮をむくような細かく連続的な動作は、Soraに限らず、ほとんどの画像および動画生成AIにとって技術的に非常に難易度の高い課題に思えます。特に、手の動きや物体の変化を逐次的かつ正確に表現することは、現行のアルゴリズムでは難しいのでしょう。

しかし、(すべての機能を使ったわけではありませんが)印象に残ったのは、疾走する車両や駆ける犬など、高速かつダイナミックで迫力のあるシーンの表現には秀でていることです。特に、テンポよいモーションは、視覚的に魅力的に生成可能で、水準の高い表現力を持つと感じました。
Soraは米OpenAIが提供する高度な動画生成AIです。年末年始のホリデーシーズンには、すべてのPlusユーザーに対して無制限のアクセスが提供されました。これを機に、実際にSoraを使用し、映像生成のパフォーマンスを検証しました。
わかったこと
使用してわかったのは、「プロンプトを入力するだけではクオリティの高い動画は生成できない」という点です。たとえば、人物の顔の向きが急に変わったり、犬が突然空を飛んでしまったり、車の台数が増えたりと、不自然な変化が生じることが多々ありました。
現在のSoraでは、編集ツールを活用し、複数のカットの生成を繰り返し、その中から使えるシーンを見つけ出し、そのカット(パーツ)だけを使って編集する処理が欠かせないようです。より一貫性のある映像に仕上げるためには、編集も何度もやり直す必要があります。
試行錯誤しながら、少しづつ生成手順をパターン化しています。以下がその例です。でも、まだまだ工夫は必要です。
生成作業の流れ
画像生成AIで素材を作成
プロンプト&画像生成
ChatGPT、Leonardo.AI、GensparkなどのAIツールを活用し、プロンプトの拡張だけでなく画像生成も行い、動画生成に利用しました。
初期の簡単なプロンプトは自分で作成し、これらのツールを使い表現を拡張。
併せて画像生成を実行し、プロンプトの出来具合をチェックしながら、動画生成元の素材を作りました。
※画像を使わず、Soraで生成するTextToVideoも使えますが、今回は何回も試用する時間がありませんでした。
素材から動画生成のプロセス
解像度(Resolution)は処理時間を短くしたいので480pを選択しています。
生成する動画の長さ(尺:Duration)はすぐに確認したい場合は5秒。
今回は、尺の中で使えるカット(パーツ)が数秒でもできればいいという考えだったので、10秒で行うことがほとんどでした。
Soraへのプロンプト適用
作成したプロンプトをSoraに設定。
デフォルトの設定で動画生成実行(後で生成時間の長さ=尺は変更)。
プロンプトの調整
(次の編集工程の結果を考慮しながら)必要最小限の要素だけを残したプロンプトに変更。
プロンプトは英語で作成し、必要に応じてDeepLやGoogleを使って翻訳し内容確認。(Soraに使うプロンプトは英語のまま)
編集工程の工夫(SplitとSlip)
Re-cutのSplit
動画を切り取り、切り取った部分の長さを変更したりしながら視覚的に優れた部分(パーツ)だけを残します。
切り取りは複数回可能ですが、パーツが増えると修正する際にわかりにくくなるので、管理を容易にするため2〜3パーツに限定しました。
Re-cutのSlip
各パーツの開始位置を微調整。
(マウスでドラッグしながら調整します)パーツ同士の視覚的なつながりを考慮し、つなげることが難しい箇所から始まることは避けます。
映像の流れをより自然に見せるためには、SplitとSlipを使うことが必要だと思います。


編集工程の工夫(パーツの配置)
パーツ間の間隔が短くなりすぎると、映像のシームレスなつながりが損なわれる可能性があります。そのため、以下のような配置を意識しています:
最初と最後の2箇所
最初、中間、最後の3箇所
このように配置することで、映像の一貫性を維持しつつ、視覚的な流れが途切れないように調整しています。

動画の尺は10秒
パーツの間隔にゆとりを持てるように、ChatGPT Plusの契約で使えるSoraの最長となる10秒を選んでいます。
次のようにパーツを配置するのが適切だと感じました。
最初の1〜2秒:不自然な動きのないパーツで、できればオープニング要素として適切なもの配置。
5秒前後:最初に配置したパーツと構図が大きくずれないパーツを配置。映像の中心となるアクションを配置できればなおよしです。
10秒手前:クライマックスや映像のまとめとなるパーツを配置したいのですが、中間のパーツ同様、構図が大きくずれないパーツを優先します。
パーツの間隔に数秒以上とれたほうが、パーツとパーツをスムーズに繋ぐ動画を生成する確率が上がると考えています。一方で、間隔が長いと想定外の動画が生成されることもあるので、この作業も一回で終わることはありません。
高品質動画のために必要なこと
10秒の動画の中で、数秒間でも品質のよいなカットが生成されれば十分に成功と考えています。うまくいかない場合は、SplitとSlipの操作やパーツの位置を変えたりするなどを繰り返して調整する必要があります。結果が改善しない場合には、プロンプト自体を再調整しています。
Soraは、プロンプトを入力するだけで動画を生成できるツールですが、細部の制御や複雑な動作の完全再現には依然として制限があります。しかし、編集ツールであるSplitやSlipを戦略的に活用することで、視覚的に優れた結果を得ることが可能です。
よりクオリティの高い動画生成のためには、プロンプトだけに頼らず、編集機能に関する知見を蓄積する必要があると考えています。