見出し画像

Soraが描く動画の世界 Soraについて現在分かっている事 リリース前アイデア集

本記事は今後リリースが予定されている動画生成AI Soraの現在公開されている動画からどのような動画生成が得意なのかを考察し具体的な作成アイデア, コツを提案します。 

【理論編】では公開されているsampleデモ動画の特徴からSoraが苦手とする分野を見つけ出し, それ以外のSoraが描けると思われる動画がどのようなものかを考察しています。

Soraの得意, 不得意動画 ≒ 世の中に存在するほぼ全ての動画をカテゴライズ

本記事内で出てくるサンプル動画将来, Soraで作成可能と思われる動画を現在AIで模擬的に作成したものです。元となる画像は例えば, コミカルキャラDalleで作成しました。

水をラムネに置換:Dalleで画像生成, Haiper AIで動画化
オリジナル素材(編み物) の3Dアニメキャラ:同手法

一方, リアル系の画像はMidjourney V6 で作成しました。これらの画像を元に動画生成AIのRunway gen2, Haiperで動きを付加しています。

道路, 背景を1960's Amaricaに置換:Midjourneryで画像生成, Runway gen2で動画化
花火で文字や絵を表現できるかも? 同手法

この記事の考察は事前に公開されているサンプルデモ技術情報をもとに行っているため, 考察が間違っている, または情報が『正確でない』可能性は十分ありえます。ある意味挑戦的な記事ですのでご了承ください。

せっかくだから3章への扉を選ぶぜ! We are now speeding into Zone 3. Be on your guard!

この記事はとにかく『長い』です。どのようなことが出来るか, 『活用例』だけでも読んでいただければ幸いです。目次からChapter 3【実践編 (本編)】Soraのアイデア活用例 までskipお願いします。

全てを『読む』ために作成したものでありません。ではなぜそのような記事を作成したのか? 後ほど解説しますが, 半分, 自分用でAIを使って活用するために作成しました。


0. はじめに

0.1 背景

2023年はChatGPT4の登場で生成AI元年と言われています。2024年は動画生成AI元年と一部では言われています。簡単なテキスト (日本語) のみで高品質な動画が作れる時代がやってくるかもしれません。

唐突ですが, 映画コンタクト (©1997 ワーナーブラザーズ) の名シーン (観ていない人はごめんなさい。ネタバレになってしまいます…)

地球外知的生命体探査 (Search for Extra Terrestrial Intelligence: SETI) の研究者エリー (主人公) は宇宙船から別の銀河を初めて見たときに以下のコメントをしています。

まるで天上の祝祭 いいえ 違う 言葉では表現できない 
詩だわ 詩人を乗せるべきだった

綺麗 美しい … とても 夢にも思わなかった
こんなこと…想像超えている 素晴らしい…

綺麗な光景を見た博士はその光景を表現するのが難しく, 地球にいる人々にその美しさを伝えるためには, 宇宙船には自分ではなく『詩人』を乗せるべきであったと言っています。

DALLE3で『綺麗な銀河』を再現するようにお願いしてみます。

DALLE3が作った『天上の祝祭』

人が一杯いるので編集モードで人を消して, 宇宙服の女性を追加するようにお願いします。

んー 思ってたのと違う…

DALLEにうまく伝わりませんでした。やはり詩人が必要でしょうか。これはAIが悪いのではなく, 指示の仕方がわるいため再現できないことが考えられます。AIにきちんと作りたい映像を伝えれば, 『思い通り』の画像が作れますので次はきちんと伝えてみます。

A screenshot shows woman in space suit standing in front of an immersive screen displaying the Hubble deep field, pointing at one bright star emitting light rays across space. The camera captures her from behind as he gestures towards it with his hand raised. She has long hair tied back in a low ponytail. In the background, stars in outer space are visible. --ar 16:9 --s 250 --v 6.0

大分イメージに近づきました。次は動かすように指示します。

伝え方を工夫すれば自分イメージした動画作成が可能となります。もちろんAIに関する基礎知識も重要ですが, 動画生成においては『詩人』のような表現力が最も必要とされるのではないでしょうか。

0.2 このnote記事の作成方法

本記事は事前に公開されているOpen AISoraに関する公式情報, 先行userのレビュー記事をAI学習させて作成しました。

使用AIは主にClaude3 opusです。数十万単語と情報量膨大のため, ChatGPT4 omniではpdf全体の要約は不可能でした (全文を読んでいないのに読んだふりをします) 。

記事をもとにお互いのアイデアを相談して作成しました。

0.3 このnote記事の正しい利用方法

文字を大量に読む仙人

本記事は知り得た情報を網羅しているため, 非常長く, 全て読むとなると冗長に感じてしまい, あまりお勧めしません。AI (例えばClaude 3) に要約させ, さらにそこから新たなアイデアを出すのが適した使い方かもしれません。 

動画の全カテゴライズについて, やっつけ仕事で作った感がありますので, ネット記事など作成されているかたは洗練したもの作っていただけたら幸いです。※ 完全 free記事です, プロンプトなど二次利用 okです。

存在している『全動画』を分類化

実際, 当方自体もこの記事をもとに, より『読みやすい』完全版を作成しようかと思っています。もちろんAIに文章を要約させてですが。

本記事
(AIが) 鋭意作成中  完全版記事
Haiper AI

【理論編】

1. Soraの基本情報

1. Soraではどのような動画が作成できるのか?

以下のサイトに使い方の詳細が解説されています。Soraではこれまでの動画生成AIと比較にならないくらいの『安定』した長時間動画が生成可能となっています。

使用感など多くの解説記事がまとめられています。

1. ルンバのような自動掃除機の上に乗る猫

Sora prompt: An adorable kitten pirate riding a robot vacuum around the house

初めてこの動画を見たときは『さすがに実写でしょ』と思いました。無限の可能性を感じます。

2. 変な動物集

ウナギ犬ならぬ『ウナギ猫』や羽の生えた豚など, それぞれの動物の動きがうまく融合した変な動物集です。

3. 泡を吐く泡ドラゴン

単純に見ていて楽しいですが, おもちゃ, 商品のプロモーションなど何に応用できるか今から楽しみです。

4. 雪と桜の花びらが舞う活気ある東京の風景

Prompt: “Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.”

物や人をよける動作 (に見えるだけ?) など非常自然です。途中で人が消えたりやはりAIだったと再認識してしまうほど実写と区別がつきません。

1.2 なぜSoraは長時間の動画が安定して作れるようになったのか?

Soraが従来の動画生成AIと比べて革新的な点を挙げてください。

Soraが安定した動画生成を実現した理由を以下の3つのキーワードで解説したいと思います。

1. テキストプロンプトによる動画全体の制御
2. 時空間パッチの潜在表現
3. トランスフォーマーの動画生成へのスケーリング

1. テキストプロンプトによる動画全体の制御 Controlling the Entire Video with Text Prompts

① テキストプロンプトによる動画全体の制御
Sora
: テキストプロンプトから生成される全体的な説明を通して, 動画の一貫したストーリーラインを維持しながら生成する。
従来のAI: フレームごとの独立した予測に依存し, フレーム間での情報の連続性を確保するのが困難であるため, 一貫性が失われることがある。

Soraは動画全体をテキストプロンプトにより制御します。例えば, 『猫のダンス動画』と言えば全体のストーリーとして猫がダンスしている映像が維持されます。

一方, 従来の動画生成AIは初めにとなる映像 (フレーム) が与えられ, そこからフレーム事にAIが最適 (と考える) 映像が次々とフレーム単位で生成されていきます。猫のしっぽを『蛇』と認識すれば以降は蛇になることもあります。

2. 時空間パッチの潜在表現 Latent Representation of Spatio-Temporal Patches

 時空間パッチの潜在表現
動画を連続するフレームの集まりではなく, 時と空間を通じて相互接続された情報の塊として扱います。モデルはこの時空間パッチの情報を潜在的な特徴として抽出し, それを用いて動画フレームを生成します。結果として, モデルは動画の空間的なコンテクストと時間的な流れを同時に把握し, その情報を新たなフレームの生成に活かすことができるため, 動画の整合性と一貫性が保たれます。

① 動画はVisual encoderを通過後, ② フレームを単なる画像ではなく, 時間的(シーンの時点)と空間的(配置)情報を含む形で扱います。ここでの「パッチ」(下の図の緑のブロック) は特定瞬間の視覚情報を圧縮したものです。Visual encoderは画像や動画を低次元の潜在表現に圧縮し, パッチを潜在空間の点に変換する役割があります。この潜在表現は, 本質的情報を保ちつつデータ量を減らします。

OpenAI公式 の解説図を改変

これらのパッチは, 動画内の異なる瞬間に存在するフレーム間の関係性を捉えるために用いられ, 次に続くトランスフォーマーベースの処理ステップ(上の図の一番右③)において, 動画が持つべき時間的な流れと空間的な一貫性を保ちながら新しいフレームを生成するための基盤となります。

3. トランスフォーマーの動画生成へのスケーリング Scaling Transformers for Video Generation

③ トランスフォーマーの動画生成へのスケーリング
各フレームを複数のパッチに分割し, これらのパッチ時間方向に連結することで, 動画全体を表現します。トランスフォーマーは, これらのパッチの潜在表現を処理することで, 動画の時間的空間的文脈を捉えながら次のフレーム生成していきます。この手法により, トランスフォーマーは動画の長期的な依存関係を学習し, 一貫性のある自然な動画を生成することが可能となります。

従来の動画生成AIにおいて, 例えば, フレーム1 (青) からフレーム2 (黄) への伝達ミスが起こりやすいのは, 各フレームを独立して予測する際に, フレーム間の詳細な情報の繋がり欠けているためです。

frame間の伝達ミス

各フレームは前後のコンテキストを十分に理解せずに生成されるため, フレーム間での動きやオブジェクトの変化が不連続になりがちで, 結果として一貫性が失われます

一方で, 例えばパッチ1 (紫) からパッチ2 (緑) への伝達ミスが起こりにくいのは, 時空間パッチというアプローチがフレーム局所的な特徴だけでなく, 動画の時間的な流れと空間的なコンテキストも同時に捉えるためです。この方法では, 一つのパッチが複数フレームにわたる情報を含み, トランスフォーマーがこれらのパッチを処理する際には, 連続したシーンの関連性を保ちながら次のフレームを生成します。

トランスフォーマーがフレーム間の連結を行うことが非効率な点を挙げて下さい。

さらに深く学びたい人へ

2.  Soraが技術的に得意, 苦手な動画

AI利用の基本として, 得意なこと, 苦手なことを把握し, 得意なことをさせて苦手なことはさせないということは重要な考え方だと思います。ここではSoraの得意, 不得意技術的な観点から考察します。

2.1 Demo動画から考える得意

Soraの得意な動画
キャラクター置換とシンプルな動作の再現: 既存の動画において, 人物や背景をAIが生成したキャラクターや要素で置き換える作業は, 技術的に現在でも実現可能です。これは主に画像認識と生成技術に依存しており, 既存の深層学習モデルを利用して比較的容易に実行できます。

Soraが得意な動画は『既存の動画の置換』に集約されると思います。
トレーニングしたデータを超えることは出来ないので, すでに存在している動画から逸脱したものは
作れない。物理演算やシミュレーションが一切できないので, その意味ではオリジナリティの
高い動画は作れなく, 既存の動画, imageの組み合わせでオリジナリティを生むしかないように思えます。

・風景シーン, 海, 水, 炎, 雲などの表現

Sora prompt:Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
Runway gen2でもこのような動画は得意でした。なぜですか?

・ふわふわモンスターとろうそく

Sora prompt:Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
ピ●サーなど子供向け3Dアニメーションにいそうなキャラですね。シーンもどこかでみたような。

ペーパークラフトの海

Sora prompt:A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
子供向けの映像番組のトレーニングデータを直接再現したのですか?
それとも海の生物をペーパークラフトにおきかえたのですか。
Soraは後者も得意そうですね。

ゴールドラッシュ時代のカリフォルニア

Sora prompt:Historical footage of Califorinia during the Gold Rush.
Soraはこの動画をどうやってつくりましたか。ゴールドラッシュ時代に動画撮影技術はなく, 
トレーニングデータから直接作ることは不可能です。

庭園のジオラマで掃除している人形

Sora prompt:Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand.
この動画はどうやって作りましたか?掃除をしているおじさんを人形に置換したというより, 
写真をつなぎ合わせて動画にしているような, なんちゃらモーション動画, NHKの教育番組で
見たような。そのようなトレーニングデータから来ていると思います。

人々が賑わう中国の祭りの風景

Sora prompt: A Chinese Lunar New Year celebration video with Chinese Dragon.
大人数を安定して描いているのは驚きです。どのようにして作りましたか?
犬のシーンでは正確に5匹を描くのを苦労していましたが群衆crowdなのに人が増えたり減ったり
していません。中途半端に人数を指定すると失敗するとかあるのですか?
Runway gen2でも大人数の場合, 動きが加えられず人数が制御できている経験はありました。
もしかして, 内部プロンプトでメインの龍以外の人々の運動を制限しているとか?? 
Soraを使っていないので何とも言えませんが...

アトランティスの様に水没したニューヨーク

Sora prompt: New York City submerged like Atlantis. Fish, whales, sea turtles and sharks swim through the streets of New York.
これまでのアイデアを組み合わせた動画で問題なく作れると思います。

現実に存在する町+『特定のアイデア』の動画はSoraが最も得意な領域の一つであり, かつuserのアイデアが最も生かされる動画テーマではないでしょうか?

ロボットの一生の物語

Sora prompt: The story of a robot’s life in a cyberpunk setting.
シーンが切り替わってもロボットやサイバーパンクのスタイルが維持されていますね。

プロモーションMovieとすごく相性が良さそうですね。

シーンがシームレスに変化 Connecting Videos
公式解説ページ

Sora prompt: 未確認

動画生成時のプロンプトが見つからなかった (非公開?) のでどのように作っているのかは分かりませんでした。ただ"interpolate between two input videos (2つの入力ビデオの間を徐々に補間)" と記載がありましたので用意した動画をSoraに渡して作成しているのは間違いなさそうです。

① カメレオンから鳥になる動画

Soraで作成した二つの動画 (:緑のカメレオン, 青い鳥) からさらに新たな動画 (中央) が作り出されています。中央の動画の動物は初めはカメレオンに近い動物でしたが, 『いつのまにか=シームレスに』に変化していました。

② ドローンから蝶になる動画

こちらは背景飛行物が切り替わる動画です。ドローンから蝶への変化は明らか切り替わりポイント (あるフレームで一気にへ変身) が確認できましたが, 背景の遺跡と海底は中間のイメージ (海底に沈んだ遺跡) が存在し自然に融合されている印象です。

③ 車から猫になる動画

山道を走行しているの中を歩いているの動画から, 山道融合されたような背景の中で速度で走る動画に切り替わっています。

SoraでいろいろなCrunchycat Lunaちゃんが変身するのを考えるとワクワクがとまりませんね。

2.2 Demo動画から考える苦手

公式が苦手と公表している動画から苦手な動画の傾向をつかみたいと思います。まずは犬 (オオカミ?) が異次元から現れるシーンです。

・複数オブジェクトの正確な数の表現

5匹の犬と定義しましたが, 実際には5匹以上さらに異空間から現れます。

そういえばDALLEの画像生成でも正確な人数を指定して描写するのは困難でしたね。

〇〇人で構成されるヒーロー戦隊』の作成をお願いしても, 『人数』を正しく表現されないことが多いです。

脱線しましたが先ほどの犬の表現の誤りと生じた理由をまとめてください。

犬の動画の問題点
5匹のオオカミという指定にも関わらず, 予想以上に多くのオオカミが表示される。
・オオカミがフレームの一貫性を欠いて突然現れ, 数が一定しない。
・動画の中でオオカミが画面の端から不自然に登場し, 異次元から現れるように見える。
生じた理由:
数の把握の難しさ: AIは数を厳密に把握するのが難しく, 特に複数のオブジェクトが画面に同時に表示される場合, 正確な数を把写することが困難な場合がある。
学習データのバイアス: AIがトレーニングデータで一般的に見た群れの行動を反映しようとする可能性があり, これにより個々のオブジェクトのカウントが不正確になることがあります。
オーバーラップと複製: 特定のオブジェクトがオーバーラップしている場合や, モデルがフレーム間でオブジェクトを解釈するときがある。これが誤って多数のオブジェクトとして解釈されることがあります。

・非現実的な相互作用

Sora prompt: Basketball through hoop then explodes.

良く見ると爆発した後に網が破れていないにも関わらず (ボールの模様と似ているので分かりにくいですが… ) そのまま網を『網が無いか』のように手前にボールが通過しています。

バスケットボールの動画の問題点:
爆発にもかかわらずバスケットボールネットが破損していないことが非現実的である。爆発の力は十分に強いはずなのでネットが無傷であることは物理法則に反している。
・爆発するボールがネットを通過する描写があるが, 実際には爆発によってバスケットボールは破壊されネットを通過することはない。
・爆発の衝撃がネットに影響を及ぼさないことも不自然である。爆発の衝撃波は周囲のオブジェクトに影響を与え, ネットを揺らすか変形させるはずである。

生じた理由
・物理的相互作用のシミュレーションの難しさ: 爆発のような複雑な物理的事象の全ての結果をAIが予測し適切に描写するのは困難です。

データセットの特定のシナリオの不足: 爆発するバスケットボールという非常特殊な状況を含むデータが学習セットに不足している可能性があり, これが正確な描写の障壁となっています。

・無生物に対する物理法則の適応

Sora prompt: Archeologists discover a generic plastic chair in the desert, excavationg and dusting it with great care.

遺跡?から発掘された椅子が勝手に浮遊して, 去っていきます。

椅子を発掘する動画の問題点:
砂漠から掘り起こされた椅子自律的に動いているように見え, 実際には起こり得ない不自然な物理的挙動が描かれている。

生じた理由:
・AIが椅子を静止しているべき物体として正確に認識できなかった。
学習データ不足または不適切で, 椅子の動きを生成する際の誤りがあった。
物理法則を正確に再現するモデリングの適用に失敗し, その結果, 現実ではあり得ない誤った動作が生じてしまった。

・物理的に不自然な動き:運動方向の誤認知

Sora Prompt:Step-printing scene of a person running, cinematic film shot in 35 mm.

そういえばDALLE3でも左右認識問題はありましたね。左足をあげるようにお願いしても右足をあげるみたいな。

運動している人の動画の問題点:
運動器の逆走: 運動マシーン上前方に運動するはずの人物が, Sora生成の動画では逆方向, つまりマシンの後ろへ向かう運動している。

生じた理由:
プロンプトの不明瞭さ: 提供されたプロンプトに具体的な運動方向記述が欠けており, Soraが運動の方向性を誤解した可能性がある。
・空間認識の欠如: AIが左右や前後の空間的な関係性を正確に認識していないため, 物理的にあり得ない運動パターンを生成した。
・学習データの不足: Soraが適切な学習データを持たない, または運動器を使う人の運動方向が一貫していないデータで学習していたため, 不正確な動作を生成した。

・物理シミュレーション

Sora prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
Soraは物理演算を行って動画生成しているわけではなく, 物理演算を行ったような動き,
または自然法則に乗っ取った動きをして世界を理解しているようなオブジェクトが含まれる
事前学習動画をトレースしているのが正しい表現だと思います。
例えばもし私がSoraに『g=9.8で リンゴの落下運動 を再現して下さい』という動画をお願いしたら
膨大な落下運動を学習しているためその意味では落下運動の再現は可能です。
またg= 1.5 も可能かもしれません (月の運動)。 しかしg= 5 は不可能と思われます。

まとめ
Soraは直接的な物理演算シミュレーションを行っているわけではなく, モデルの容量増大させ, 広範なデータでのトレーニング (=スケーリング) を通じて, 物理的な動きを模倣します。例えば, Minecraftの動画やコーヒーカップ上の海賊船のようなシーンは, 事前に学習したデータを基に生成されており, これにより物理エンジンを使用しなくても自然に見える動きや相互作用を再現できます。この能力はデータとモデルのスケーリングによって支えられています。

※おまけ ゲーム分野への応用 (マルチシナリオムービー, 3Dモデリング再構築)

Soraが生成したMinecraft動画が話題になっています。繰り返しになりますが, この動画は物理演算で『直接』シミュレーションしたものではなく事前学習のMinecraftの動画と言った方が正しいです。

Open AIのSoraのデモを見たときゲーム業界に多くのブレイクスルーをもたらしすのではないかと一瞬思いましたが, 個人的にはSoraによる影響は限定的と考えます。

Soraによる動画生成AIで実際ゲーム業界に革新的な影響を与えるのは以下の二点と考えます。
① マルチシナリオのムービーシーン
② 3Dモデリングの下書き

以下大幅に脱線しますがゲーム物理エンジン, シミュレーションについて述べたいと思います。

MidjourneyでPS1 Sega Saturn時代の低ポリゴン ゾンビサバイバルホラーイメージで作成

初代Playstation (©SCE) までは物理演算によるムービーシーンは実現されていませんでした。世界の物理秩序によって動いているようにみえるゲーム内の動きは全て, 事前に用意されたムービーでした。 

ファンタビジョン (2000年 ©SCE) をLEGOで:花火の軌道や爆発の表現に物理演算が使用された

家庭用ゲーム機で初めて物理演算が注目されたゲームとしてPS2の『ファンタビジョン』と記憶しています。このゲームでは, PS2の処理能力を利用して花火の軌道をリアルタイムで計算し, 動的なビジュアルエフェクトを実現していました。

PS1時代は事前に用意された (プレレンダリングされた) ムービーの再生で動きを表現していました。例えばゾンビが打たれると, 『用意されていた』ゾンビが吹っ飛ぶシーンを再生します。

一方, PS4では物理エンジンでこれらの『破壊』『爆発』などの動きを計算によってリアルタイムに動画として直接動的に再現しています。

PS1から現行機に進化していくにつれ物理エンジンの割合が多くなっています。

実際Soraが行うことができることは, 上の図の緑 (Pre-rendered) の部分でゲームでいうところの挿入ムービーの作成となります。

Midjourneyでゾンビゲーム挿入ムービーで作成→Haiper AIで動画化

3D 再構成

2.3 Demoから考える得意, 不得意まとめ

これまでの本note記事を二つのAI (Claude3とChatGPT) に渡して要約してもらいました。

お互い要約をそれぞれ批判させて最終的にでてきたまとめが以下です。

GPTの意見をClaude3に吟味させる

・Soraの得意な動画

Soraの技術的得意 まとめ
再利用と組み合わせ: Soraは既存動画素材を効果的に抽出, 再利用し, 新しいストーリーやビジュアルスタイルを持つ動画を生成する能力に優れています。

・キャラクターと背景の置換: 実写動画内のキャラクター背景をAIが生成した要素で置き換えることができ, これにより一貫したスタイルとテーマを維持しつつ新しい視覚体験を提供します。

シンプル物理動作とアートスタイルの適用: Soraはシンプルな物理動作取り入れたアニメーションや, 特定のアートスタイルを適用した印象的なプロモーションビデオやアートワークの生成に長けています。

・Soraの苦手な動画

Soraの技術的不得意 まとめ

・物理シミュレーション: 物理法則に則った複雑な現象, 例えばガラスの割れ方や液体の流れ方などの正確なシミュレーションAIにとって困難です。これには詳細な物理演算が必要で, 現在のAI技術では限界があります。Soraは直接的な物理演算を行っているわけではなく, 学習データに基づいて物理的な動きを模倣しているため, 状況によっては不自然な表現が生成されることがあります。

・正確な因果関係の理解と表現: 特定の行動とそれに伴う具体的な結果(例えば, クッキーをかじるという行為後のクッキーにかじった痕跡の表現)の正確なシミュレーション難しいです。これはAIが特定の原因と結果を適切に理解し, それに基づいて動画内で表現することが困難であることを意味します。Soraは学習データから因果関係を推測していますが, 真の意味での理解には至っていないと考えられます。

・非現実的な相互作用: 物体同士相互作用や, 物体と環境の関係性が, 物理法則反する形で表現されることがあります。これは, Soraが物理的な制約を十分に理解していないことを示唆しています。

・空間的詳細の混同: 特定の空間における物体の正確な配置左右の区別など, 空間に関する詳細の混同が生じやすいです。AIはしばしば, 空間的な位置関係や方向性を誤って解釈することがあります。これは, 学習データの偏りや不足, あるいはAIの空間認識能力の限界に起因すると考えられます。

・時間を通じた正確なイベントの追跡: 時間経過に伴うイベントの正確な記述や, 特定のカメラの動きに沿った動作の追跡が難しいです。これはAIが時間的な連続性や動的なシーンの変化を正確に捉えるのが苦手であることを示しています。Soraは個々のフレームを生成する能力は高いですが, それらを時間軸に沿って整合性のある形でつなぎ合わせることが難しいようです。

・複数オブジェクトの正確な数の表現: Soraは, 複数のオブジェクトが同時に画面に表示される場合, その正確を把握し, 表現することが苦手です。これは, 学習データの制約や, の概念を抽象化する能力限界に起因すると考えられます。

・Soraの得意苦手まとめのまとめ

得意
・キャラクターと背景の置換
: 既存動画のキャラクターや背景をAI生成要素に置き換え, 新しい視覚体験とストーリーを提供する。
シンプルな動作とアートスタイルの適用: シンプル動作を取り入れたアニメーションや特定アートスタイルのプロモーションビデオとアートワークを生成。
動画の滑らかな結合: 複数動画を滑らかに結合し, 異なる要素を自然に融合させ新しい表現を生み出す。

不得意
物理シミュレーション: 物理法則に基づいた複雑な現象のシミュレーションが困難。直接的な物理演算限界がある。
因果関係の表現: 特定の行動と結果のシミュレーションが難しい。因果関係を推測するが, 完全な理解には至らない。
非現実的な相互作用: 物体間や物体と環境の関係性物理法則に反する形で表現されることがある。
空間的詳細の混同: 左右など物体の正確な配置や区別の誤解が生じやすい。
時間を通じたイベントの追跡: 時間経過と共にイベントやカメラ動作の追跡が難しい。
複数オブジェクトの数表現: 画面上のオブジェクトの正確を把握し表現するのが苦手。

2.4 プロンプトの考察

まだ一度もSoraを使ったことが無いのでこの時点でプロンプトについて考えるのは非効率だと思います。しかし, これまでの得意, 苦手な動画の傾向から現時点でも『ある程度』有用と思われるプロンプトのアイデアは考察できるかなと思います。

Soraのプロンプトの構成要素を教えて下さい。

プロンプトの構成要素

1. 主題とシーンの設定: プロンプトで描写するシーンの基本的な状況を明確にします。
2. 動的要素: 動きアクションの説明を入れることで, 動画が持つべきダイナミクスを示します。
3. 視覚的要素: 色, テクスチャー, スタイル (Artistic styles) など, 視覚に訴える詳細を追加します。
4. 詳細な描写: 物理的な環境, 対象の特徴, 動作の詳細などを具体的に書きます。

いままで渡したSoraの得意動画や生成時のプロンプトなどを考慮して
プロンプト作成のコツや注意すべき点を教えて下さい。

Soraの『得意領域』から考えるプロンプト作成のコツ
① シンプルプロンプトの有効性
: Soraは簡潔なプロンプトでも高品質な動画を生成するが, 複雑なシーンでは詳細な記述が必要である。

② 具体性と抽象性のバランス: プロンプトの具体性と抽象性を適切にバランスさせる (具体的すぎると自由度が低く訓練データに該当する動画がなく, 逆に抽象的であると指示伝わらない問題) ことで, Soraの創造性を最大限に引き出すことができる。

③ 視点, 状況, 雰囲気の具体化: プロンプトに視点, 状況, 雰囲気を明確にすることで, よりリアルでインパクトのある映像が生成される。

④ 訓練データへの依存: Soraは訓練データに基づいて映像を生成するため, 完全に新しい内容の生成には限界がある。

良く考えるとDALLE3のこつと全く同じですね。

一方, 不得意領域からプロンプト作成のコツを考えるのは非効率でないかと考えます。
なぜならSoraが実際動画を作成できるかどうかはDALLE3の画像生成と同じで, 
『実際にプロンプト』して作れるかどうか経験的なものが多く, 
元も子もないですがトレーニングデータにあるかどうかに一番依存しているからです。
というわけで, これまでの全てのやり取りから Soraの動画の例を挙げてください。
1. キャラクターや背景の置換: 既存の動画に登場するキャラクターや背景をAIが生成した新しい要素に置き換える動画。 2. シンプルなアニメーション: 基本的な動作を取り入れたアニメーション動画。 3. アートスタイル適用: 特定のアートスタイルを適用したプロモーションビデオやアートワーク。 4. 異なる動画の結合: 複数の異なる動画を滑らかに結合し, 新しい表現を生み出す動画。 5. 自然現象の表現: 海, 水, 炎, 雲などの自然現象を美しく表現した風景動画。 6. クリエイティブなキャラクターデザイン: ユニークなキャラクターデザインと背景を組み合わせた創造的な動画。 7. 時代や場所の再現: 特定の時代や場所を再現したシチュエーション動画。 8. ゲーム用ムービーシーン: ゲーム内のマルチシナリオのムービーシーンや3Dモデリングの下書きとして活用できる動画。 9. プロモーション動画: 商品やサービスの魅力を伝える動画。 10. 短編アニメーション: ストーリー性のある短編アニメーション動画。 11. 教育動画: 教育目的の解説動画やチュートリアル動画。 12. ミュージックビデオ: ミュージックビデオやライブパフォーマンス動画。 13. インタラクティブ動画: バーチャルリアリティ(VR)やaugmented reality(AR)用のインタラクティブ動画。 14. ソーシャルメディア広告: ソーシャルメディア用の短尺動画広告。 15. 企業紹介動画: 企業や組織の紹介動画やブランディング動画。 

2.5 著作権による制限

Open AI DALLE3著作権侵害するような画像生成をしにくいような設計となっています。

userが著作権侵害に当たるような生成を行うとき, 例えば『進撃の〇人』など指示した場合。① DALLEは作成を拒否する ② クオリティ下げた似ている画像を生成する ③ 偶然作れてしまう。の3パターンを取ることが知られています。

進撃の裸大男

実際Soraをテストしているuserから, Soraでも同様の挙動を取ることが確認されています。以下の記事を読む限り, 著作物連想するような動画の表現についてはかなり厳しそうな印象を受けました。

Soraによる短編ムービー『Air Head』制作インタビューの中で以下の様に語られています。

(英) For example, if you prompt "something such as 35 mm film in a futuristic spaceship, a man walks forward with a light sword",  SORA will not allow the clip to be generated as it is too close to Star Wars.

(和) 例えば「未来的な宇宙船の中で35 mmフィルムを使用し, 男性が光の剣を持って前に歩く」というようなプロンプトを入力すると, SORAは『スター・ウォーズ』に近すぎるとしてクリップの生成を許可しません

DALLE3同様に実際に『ライト〇イバー』や『ジェダ〇』など作品名などを入力していなくても生成を避けることが確認されています。

疑問なのが著作権を避ける挙動を行うというSora (DALLE)の性質から, テキストプロンプトからは
生成のみを拒否することが予想されます。しかし image2video(画像から動画生成)のデモを見る限り
技術的には可能でトレーニングデータでスターウォーズを学習しているはずなので, スターウォーズの
画像を渡したとき 1. 拒否する 2. そこから別の似た動画をつくる 3. 偶然作れてしまう の
3パターンになるんでしょうか?

AIと著作権に関する考え方について

Relationship between AI and Copyritht

このような記事を書いておきながら, そもそも論としてAIによる著作権侵害の問題はどのようになっているのかについてです。文化庁AIと著作権に関する考え方について必読です。

あなたは動画生成AIを作成することに賛成ですか反対ですか?
文章全体を参照して, 著作権侵害の観点から述べて下さい。 
整数比 例えば 8:2で賛成など。

パブリックコメントを読み込ませたときも, 『反対寄り』の意見でした。GPTも同じような考えでした。作成者本人 (AI) がいう位ですので深刻な問題です。

2.6 Soraに長編ムービーは描けるのか

Soraは最長1分ほどの動画が描けるとのことです。最も注目されているSoraの活用として, 物語性のあるショートムービーではないでしょうか?

現在AIを用いた動画作成の一般的な作成方法としては, ① Midjourneyなどで高品質な画像を作成 ② Runway gen2 などで4秒程度のショートムービーを作成 ③ 動画編集ソフトでそれらを結合して1本の動画にする, などのstepがあります。

(↑ DALLE3の画像から生成されたSora動画)

Prompt: too many cooks in the kitchen
Sora Prompt or DALLE3 prompt??

一方, Soraでは単独で比較的長時間の動画が作成可能とのことで, これまでのプロセスを大幅に簡略化できるといった期待がありました。果たしてSoraで長時間動画が描けるでしょうか? 

Soraで作ったロボット動画から考察してみます。

Sora prompt: The story of a robot's life in a cyberpunk setting.

この動画は『The story of a robot's life in a cyberpunk setting. サイバーパンク設定でのロボット人生のストーリー』という非常に短いプロンプトで生成されています。

Soraの単独ムービーは数十秒と聞いています。その中で複雑なシーンが切り替わる, 
高度の物語性を含んだ動画を作るのは難しいと考えています。
なぜならばSoraの動画生成時に使用できる(と思われる)
プロンプトの文字数が短すぎるためです。
これまで公開されたデモで life of a robotみたいな動画がありました。
数秒ごとにシーンが切り替わり一貫性のあるロボットが描かれていました。
しかし複雑なモーションはなく, 中央でロボットが立っているだけでした。
生成時のプロンプトも数単語でした。
これはSoraの限界を表すデモ動画ではないでしょうか??

長文プロンプトで詳細な設定で動画を描くことはできず, 敢えて短いプロンプトで作成したと類推しています。

このロボット動画は以下の3つのシーンで構成されています。

① 0-5 s: ロボットがサイバーパンクのの中央で両手と首を少し動かし立っている。
② 5-13 s:シーンは切り替わり同じロボットが露店 (機械などの修理店?) で立っている。ロボットは同じような動き, 人は機械をいじっている動作。
③ 13 s-last:同じ場所でカメラが上からのアングル切り替わる。ロボットは同じような動きをしている。

注目すべきはシーンが変わっていも同じロボット (一貫性が保たれている) であること複雑な動作はしていないことです。

ここでDALLE3で (Soraでも?) 画像を生成するときのプロンプトについて考えます。画像 (動画) の特徴をAIに伝えるときは以下の要素を説明するとうまく伝わります。

DALLE3 promptの構成要素
1. Subject (主題)
2. Setting (環境)
3. Action (アクション)
4. Objects (具体的な物体)
5. Artistic style (画風)
(6.) Emotion and Expression (感情と表情)

先ほどのロボットの動画のプロンプトがどのような要素で構成されているか考えてみます。

1. Subject (主題): a robot's life (ロボットの一生)
2. Setting (環境): in a cyberpunk city (サイバーパンクの街)
3. Action (アクション): 指定なし
4. Objects (具体的な物体):指定なし (露店や修理屋のおじさんなど指定していない)
5. Artistic style (画風): cyberpunk (サイバーパンク)

特にアクション動作の詳細やロボット以外の登場人物の指定はしておらず, 非常にシンプルなプロンプトです。AIが考える余地を与えており, 自由度の高いプロンプトと言えます。

逆を言えば, 詳細な指定がなければ, AIの解釈によって自由度が高すぎるため種々の動画が出来る可能性があり, userの望んだ詳細なムービーシーンを作ることが難しい可能性があります。

ここでDALLE3の画像生成リクエスト時のおさらいをしてみます。画像生成するときにuserはまず, ChatGPTチャット欄で簡単なイメージの原案を伝えます。

ChatGPTはuserリクエストを受け, 実際に高品質な画像を生成しやすい?ように『詳細』なプロンプトをDALLE3に渡します。

DALLE prompt: A cinematic cyberpunk style depiction of a young android robot stepping off an assembly line in a robot factory for the first time. The scene includes robotic arms, tools, and convey belt, surrounded by an atmosphere filled with industrial elements and moody lighting. The factory is designed with futuristic, industrial aesthetics common in cyberpunk themes, featuring dark tones and neon highlights.

このプロンプトを構成要素に分解しています。特に画風 (Artistic Style) に関してuserの説明が足りない記述をChatGPTが考えてくれていました。

シーン1 工場でロボットが組み立てられる
プロンプト:日本語
プロンプト:英語
Detailde prompt of scene1: A young android robot stepping off an assembly line in a robot factory. The robot is stepping off the assembly line for the first time. Includes robotic arms, tools, and a conveyor belt. A cinematic cyberpunk style depiction with an atmosphere filled with industrial elements and moody lighting. The factory is designed with futuristic, industrial aesthetics common in cyberpunk themes, featuring dark tones and neon highlights.

シーンを複数作る場合は, subject (主題) は共通のものを使うことが多いですが, ActionやSettingなどが大幅に変わる可能性があるのでプロンプトの文字数もそれに応じて『膨大』になります。

シーン2:ビルの上から都市を眺める
シーン3:図書館で本を読む

また, 現時点でSoraはとんでもないスピードのアクションカメラワーク描写が可能であることが示唆されています。

このデモ動画を観る限り複雑なモーション (人の関節, 手指の動作など3次元の曲線運動) はさておき単純な運動 (繰り返し, 単調な回転) に関しては高速の平行移動, カメラ視点の移動が期待できます。

という訳でシーン毎にオブジェクト, 速度も含めたアクション, スタイル, カメラなどを詳細に記述するとプロンプトが膨大になることは容易に想像できます。

・長編ムービーを分割するかまとめて作るかの考察

物語性の高い長編ムービーを作成する方法として, ① 複数シーンに分割する方法, ② 1本の動画に複数シーンを含める。の2通りがあります。効率よく安定してムービーを作る方法はどちらでしょうか。

① シーンを分割して作成する方法

まずはじめに, 生成AI (DALLE3など) の特性自体が毎回, ランダムな画像, 動画を生成することにあります。例えば昔話異なるシーンを複数作成するとどう頑張っても毎回異なるおじいさんや桃太郎が生成されていまいます。

昔話桃太郎をDALLEで作成。毎回異なるおじいさん, おばあさん, 桃太郎が生成される。

という訳でSoraでも異なる動画作成毎にキャラクターなどオブジェクトのスタイルの一貫性を保つことも困難と予想しています。

② 1本の動画に複数シーンを含める

何度も同じような説明また, 基本的な話の繰り返しで申し訳ありませんがDALLE3 (恐らくSoraも) ではuser簡単な指示を受けてGPTが内部で詳細なプロンプトを作成し画像生成を行っています。例えば『美味しそうな丼ぶり』と指示すると…

GPTはuserの『空気を読んで』希望する画像を生成します。サーモンの刺身が乗っている, セラミックボールの器, 背景など詳細な描写を行い, どんぶりを作るためのpromptを考えてくれます。これを実際の画像生成時に使われるプロンプト, ここでは『詳細プロンプト detailed prompt』『内部プロンプト internal prompt』と呼びます。

Dalle prompt: A delicious looking donburi, featureing glistening slices of salmon sashimi atop a bowl of steaming white rice, garnished with thinly sliced green onions, a sprinkle of sesame seeds, and a drizzle of soy sauce. The bowl is ceramic, with a simple but elegant blue and white pattern. The background is softly blurred to enhance the focus on the vibrant colors of the food.

Soraでも当然この手法をとることを予想しています。なぜならこれまでの, Open AIの歴史から (といってもDALLE位ですが…), userが描いたシンプルで直感的なアイデアをGPTが補完しoutputすることが売りですので。という訳で以下の『サイバーパンクのロボットの一生』はuser promptに相当し

Simple Prompt (user prompt) : The story of a robot’s life in a cyberpunk setting

これを受けGPT (Sora)詳細なプロンプトを内部で生成し, それを元に動画化している可能性を考えます。

Detailed prompt (Internal prompt): A robot stands in the center of a cyberpunk city, subtly moving its arms and head, surrounded by neon lights and futuristic architecture. The scene then shifts to a street vendor's stall, where the same robot stands by as a human mechanic repairs gadgets amid the city's ambient sounds. Finally, the camera angle switches to a bird's-eye view, focusing on the robot continuing its movements against the backdrop of glossy, rain-slicked surfaces that reflect vibrant lights, enhancing the nocturnal, urban atmosphere.

このような simple prompt→内部でGPTが詳細プロンプトを作成→動画生成の流れが最も『推奨される』soraの使い方であり,  初めから詳細なプロンプトを指示するのはお勧めできない使い方と考えます。理由は以下の通りです。

この絵はDALLEに『不思議の国のアリス, バラ, SF調』など同時に複数の条件をお願いして作ってもらった絵です。基本的に不思議の国のアリスパブリックドメイン (≒著作権フリー) のため著作権的には描けるはずです。

しかし, 実際出力された絵は条件を完全には満たさずところどころこちらの要望と異なるものが出来上がっています。

① アリス 白と赤のバラ 〇:ok
② ペンキを塗る × :ペンキは描かれておらず。
③ スタイル ロマン主義 油絵 SF調 追加表現 ×:一般的な油絵でSFやロマン主義の要素はない
④ トランプ兵 ×:描かれていません
⑤ 白ウサギが時計を持つ ×:ウサギはいますが時計を持っていません。

一方, これらの条件を1回画像生成ごと個別に依頼すると容易に達成できます。例えば1回の画像生成で『バラにペンキを塗るシーン』とだけお願いすれば適切な画像が生成されます。

これはトレーニングデータ全てを満たす画像があれば容易に作成できますが, そのような画像はまずありえないので, 複雑なシーンを同時に作成する技術的難易度が一気に上昇するためuser promptの全体の印象に合致した画像が生成されると考えます。

この問題はDALLE3のみならずSoraでも顕著に表れると思われます。おそらく手に持つ系 (Aliceがペンキを持つ, ウサギが時計を持つなど) の表現, アクションを詳細に指示しても, 空間位置関係の把握, 人物オブジェクトの形状, 大きさの整合性を保つことの問題, そもそも, 多くの情報をプロンプトに含めるとお互いの指示が矛盾を生じる可能性が大になってきます。

一方, これは経験的なもので何の根拠もありませんが, 画風 (Artistic Style) を説明する
promptの文字数を多く含めた場合, あまり問題にならないような気がします。
アクションやオブジェクトを多く要求するよりも, Artistic style に関する情報を
多く記載した場合はうまくいきますか? アクションなどは一単語が無視されたら画像に
大きく影響するがstyleの場合, 一単語を無視されてもuserは気づかないだけかもしれませんが...

つづいて, 長文プロンプトにすることで著作物とバッティングする問題です。アリスの『茶会』自体は著作権的に問題なく描かれますが, マッドハッターという単語を入れると作成されにくくなります。

特定の映画のキャラクターを連想するワードを含むとcontents policyに違反し描かれにくくなります。

さらに問題なことはこれまで他の記事でも何度か解説していますが, DALLE3は著作物を避けるため画像のquality極端下げる傾向があります。

ビック●マンシール描いてください。

またuserが知らないうちにそのような単語を含めていたら理由が分からず低qualityの画像出力されてしまうこともあります。

以下まとめです。

以上からDALLE3 (Sora)のプロンプトのコツの私の考え総括です。
user側が長文プロンプトを準備することには不利な点が多い。
そもそもDALLEはsimpleなプロンプトで高品質な画像/動画を作るAI。
長文にすることのデメリットについて以下
・ 考えるのが大変:出来るか出来ないか作ってみないと分からないことが多い。  
  試行錯誤で良いプロンプトを考えるのが大変である。
・制約が多い:先ほどのアリスの下りのように条件が多ければトレーニングデータと
  合致するすることが困難など技術的に作成困難。制約が多ければ自由度が下がる。
 そもそも描くことが出来なくなる。
・著作物:著作物を連想するようなワードを含む可能性がでてくる。
  DALLE (Sora) は他のAIより著作物を避けるように設計されているため制約が多くなる。

動画 (画像) 生成AIにおける適切なプロンプト文字数の考察

文字数を多くすることのメリット
詳細なシーンを指示できる
・userの希望するシーンを指示できる

デメリット
1. 技術的問題
・プロンプトを全て満たすことの困難
・同時に満たすトレーニングデータの不一致
・AIによるプロンプトのあいまい解釈
2. 著作権的問題

特にDALLEにおけるプロンプト文字数に関する考察

このあたりの考察は『Air Head』の作者も同じようなことを言っており, 映画本編, プロモーションなどHigh quality プロっぽい動画が従来の方法, Midjourneyで画像作り→Upscaleimage2videoの手法がSora置き換わることはなさそうと考えます。

まとめ
Soraでは詳細なシーンを1本の動画に収めることが難しく, 無理に自由度の低いものを描くよりもシンプルなプロンプトでAI自由に描いてもらった方が良い。

結論:物語性のある長編ムービーはSoraで作成することは非効率であり, 従来の方法 (Midjourney→Runway→結合) を推奨。

2.7 Soraに複雑な動きはできるのか?

これまでのDemo動画の鑑賞やプロンプト考察を行ってみてSoraへの期待不安同時に出てきました。前者は圧倒的な安定感です。全体制御によって長時間の動画でも形が崩れずに動きが表現できている点です。後者意外と複雑な動きは指示できないのでは?という感想です。

上記の例において, 単純actionの指示をpromptに含めているのが分かります。実際指示した動きのいくつかは『無視』され, 代わりにAIが考えた自然な動きが出力されます。

Actionの要求が無視された例1
head is tilted (首を傾ける)→ 大して傾けていない
battle each other (お互い戦闘する) →戦わずにぐるぐる回っている
人形 create pattern (模様を作る)→ 作らずに熊手を振り回しているだけ

仲間 (蛇口) をみて頭を傾げる (head is tilted) ニワトリ

Runwaydescribe機能などを使っていたら薄々感じるかもしれませんが, 上のようなactionpromptの多くはあってもなくても同じ結果になると思われます。実際, Runwayでも良く指示を『無視』されることは経験すると思います。

Actionの要求が無視された例2
リスみたいな動物 gaze (木を見上げる)→描かれず, 見上げることもない
タコカニ close (目を閉じる) rest (休憩する), raise claws (ハサミを振り上げる) →ゆっくり目を閉じて休憩しているところを背後からゆっくりカニが忍び寄りハサミを振り上げるシーンを描きたかったのだが, 実際は開始から仲良くじゃれあいながら歩いているように見える ハサミの描写なし

promptにactionの指示を書いたにも関わらず, 『無視』された原因として前述のとおり, promptの文字数多すぎるため, 技術的要求値が高いこと, そもそも, 複雑な動作, 位置関係 (towards it from behind a rock) を再現するのが困難なことが挙げられます。

これらの例は単純な動作のため基本的にpromptに忠実でした。しかし, 『枕元から秘密のお菓子出す』という比較的複雑な動作は無視されています。

Actionの要求が無視された例3
と飼い主 pull out treats (お菓子を取り出す)→取り出さない

これらの動画でActionの要求が無視されたということはなかったのですが, 重要特性が示されています。一つは位置関係の把握の困難です。

ダルメシアンの動画では "inside the house, looking outside through window (家のから窓越しに外をながめる)"とプロンプトされていました。

しかし実際生成された動画ではダルメシアンは窓のそとにいる動画が出来ています。

では図1のような, ダルメシアンが家の中にいて窓越しに外を見るようなイメージを
実写で作成してください。

実際の位置関係を図示したうえで, 作成しましたが窓の内か分からないような現実的にはあり得ない図ができました。

という事はスポーツの動画などまだまだ出来るわけではないですよね。
野球, サッカーなど位置関係, 手足の相対的な位置関係などが複雑かつ, 
大人数の描写を時系列に沿って描くことはSoraにとって要求が高すぎではないですか?
DALLE3で画像生成 フリーキックのシーン, キッカーの後ろからの視点, ペナルティエリアやや後ろ
キーパーの前には壁が4-5人
作りたかった図
DALLE3が作った図

こちらは建設作業の様子を描いたジオラマ風景です。

そもそもaction のpromptが無いということもありますが, 人々は『建設作業』をあまりしておらず, これまでの動画で描かれているような単純な動作, 『歩く, 腕を動かす』などのレベルにとどまっています。

以下はHyper AIの『建設作業風景』ですが, ショベルカーアームの動きなど実際の動きに近い動画となっています。

DALLE prompt: A highly detailed diorama close-up depicting several construction workers engaged in various tasks. One worker is using a pickaxe, another is operating a drill, and a third is handling a different tool. The scene is bustling with activity, showcasing intricate details of the construction site, including debris, machinery, and building materials. The workers wear safety helmets and reflective vests.

これらの動画総括です。全体的にSoraではシンプル動作が推奨されると考えています。

まとめ
1. 単純な動作を推奨: Soraは歩く, を振る, 車など乗り物の移動など基本的動作正確に再現できる。
2. 複雑な動きの困難さ: 手の複雑な動作や道具使用など, 複数要素が絡む動作は挑戦的であり, 特に位置関係の正確な把握が難しい。
3. プロンプトの指示の無視: 複雑なアクションの指示がしばしば無視され, より単純な動きに置き換えられる
4. 複雑なシナリオの限界: 以上から野球サッカーのような複雑な動きを伴うスポーツの再現は困難である。

2.8 Image to Video (画像からビデオ) の性能は?

Prompt: too many cooks in the kitchen
Sora Prompt or DALLE3 prompt??

上の動画はDALLE3で作成した画像を元にSora動画化したものです。

切り取ったシーンを比較します。左が① 0秒 DALLE3の画像, 右が② Soraの動画の1カットです。

これまでのSoraの技術情報のやりとりとあなた (ChatGPT) の事前学習から, この動画の作成
プロセスを説明してください。リリースされておらず, こちらの情報も全て合っているか分からない
ので推測も含まれるかもしれません。間違っててもいいので。

1. ベースイメージの選定:ユーザーが提供した画像①が動画の初期フレームとして使用され, 厨房の複雑な環境と多くのシェフが特徴です。
2. プロンプトの影響"too many cooks in the kitchen"というフレーズがプロンプトとして用いられ, シーンの混雑や活動の激しさを強調し, 動画のテーマを設定しています。
3. トレーニングデータの活用:Soraはトランスフォーマー技術を用い, トレーニングデータ内の類似シーンから特徴を抽出して新しい動画シーンを生成します。
4. シーンの連続性と進化:厨房の設定保ちつつ, カメラアングルやシェフの位置, 動作自然に変化しています。
5. ディープラーニングの活用:与えられた画像から動きシーン予測し, 視覚的一貫性を保ちながら動画全体に物語性を構築します。

また, 初めに与えたDALLE画像CGアート, ジオラマに近いスタイル (画風) ですが, 動画として再生すると完全な『実写』に切り替わっています。

これはSoraのトレーニングデータが圧倒的に『実写』が多く, userprompt指示しなければ, 内部でも恐らく実写スタイルが選ばれるような傾向があると予想されます。

このことは他のtest userも述べていました。

Soraはプロンプトに画風 (Artistic Styles) に関する指示を含めなければ
デフォルトで『実写』動画を出力する傾向にある。 

ImagetoVideo (i2v)
1.メリット
位置関係など複雑でtext promptだけで作成することが難しい画像などでも, 
picture fileを与えることで, 動画の1コマ目を容易に作成できる。
2.デメリット 自由度が低くなり『得意な』動画生成というAIの最大の利点を損なう。
トレーニングデータと完全に一致した動画がそもそもあるのか問題。
あと著作権の問題, 著作物のイメージを渡すと低クオリティの動画出力されるか, そもそも出力されない。

Image2Videoで作成したDemo動画が少ないことを考えるとデメリットの方が多いかもしれません。

まとめ
1. メリット
画像を用いることで, 動画初期フレーム簡単に設定でき, 複雑なシーンやテキストでは伝えにくい細部を具体化することが可能

2. デメリット
画像に基づく動画生成は自由度低下し, AIの創造性を制限します。また、著作権問題トレーニングデータとの一致が必要など, 技術的な制約が多い

余談 蛇足 ちなみに『』歩く女性の動画を見ていて, ものすごく不自然に見えました。同じ空間にいる女性ではなく, 別々生成した画像を動画にしているように見えました。

もしかしたら一度に作るのは難易度が高いため, image2video (∵テキストプロンプトで全てを実現するのは困難) で作成しているのでしょうか。女性の画像 (≒ 動画) を別のところからもってきたのかもしれません。内部でそのような処理が施されている可能性もありますが… 仮説だらけで申し訳ありません…

実際私もChapter 3.2動画を直接作るのが難しかったのでこの方法で作っています。

ただいずれにしても, この手法に近い方法で作っている以上, 発色, 光の表現においてリアリティが著しく下がり, Soraの動画は『AIで作った動画』と簡単にばれてしまいます。

【実践編 (本編)】

3. Soraのアイデア活用例 

現時点で個人的に面白いと考えるSoraアイデアを挙げていきます。また, Soraで実現可能, 相性が良いものを★マークで評価してみたいと思います。

Sora得意度
★★★:得意 高品質な動画が出来ると思われます。
★★☆:もしかしたらできるかも?
★☆☆:苦手 Soraでは作成難しいかも?? 

Soraが得意と思われるジャンルを以下に挙げました。主にストーリーやアクションが複雑ではないショートムービーと相性が良く, DALLE3で作成しているような芸術的, エンタメ的な動画の作成が可能と考えます。

活用例リスト

Soraの具体的な活用例
1. 日常の風景:既存動画キャラクター背景オリジナルのものに
2. アートスタイル適応:既存動画に異なるアートスタイルを適応
3. シンプルアニメーション:短編, 基本動作を取り入れたアニメ
4. 異なる動画の結合複数の異なる動画を滑らかに結合
5. 自然現象の表現:海, 炎, 雲, 雪などの自然現象を美しく表現
6. クリエイティブキャラクター存在しない動物, 既存生物をオリジナルで
7. 時代, 場所の再現:既存の場所を異なる時代, 存在しない架空の都市に
8. プロモーションCM, 広告, 商品, サービス, 会社などの紹介動画
9. ミュージックビデオ実在しないアーティスト, 動物などが歌うシーン
10.  ホビー:おもちゃ, 人形, フィギュア, ジオラマ
11. ゲームムービー:ゲーム, アトラクションで流れる短編挿入ムービー
12. その他, エンタメ:いろいろ

出来ない
1. 高度な物語性長編 (短編ではない) の映画やドラマ
2. 現実世界, 知的財産:実在する場所, 著作物, 商品, 固有キャラクター
3. 因果関係, 抽象表現概念図やアイデアを映像化したもの
4. 複雑な動作, 位置関係: 代表的なものはスポーツ (特に球技)
5. 教育, 解説:技術の解説動画など
6. リアルタイム:ニュース, ライブなどに合わせた実況AI, バーチャルツアー
7. 物理シミュレーション物理法則にのっとった演算

動画のジャンルを用途別, 機能別に分類してみました。
基本的にバイオレンス, センシティブ (犯罪, 性描写, 法, 政治, 倫理, 宗教, 民族, 個人情報曝露) は
描きません。またフェイクニュースなどもあいまいですが幅広い意味でYoutube背景, エンタメに
含めようかなと考えます。文化, 健康, 個人にカスタマイズした動画など上記で直接語っていない
動画に関して, 提示したカテゴリの組み合わせで実現可能なものは含めていません。

この世に存在する『全動画』は以上でカテゴライズされますか。
Claude Opus
GPT4

この世に存在する, 『全動画』カテゴライズしたと言い切っていますが良いのでしょうか?..

1. 日常の風景

生活シーン全般 ★★★

あらゆる日常のシーンを作ることが出来ると予想しています。

(Soraに指示するであろう文) ホットケーキを作っている風景を描いてください。
まずはホットケーキミックスなど材料をボウルの中に入れてかき混ぜているシーン。

※ 以降の動画はあくまで想像イメージです。Soraで実際に作ったわけではありません。DALLE3→Runway gen2などで動画化しています。

ホットケーキミックスをかき混ぜる

ホットケーキの焼き上がり ★★☆

次は, このホットケーキミックスをフライパンで焼いてください。

このようなテキストプロンプトでお願いすれば焼きあがる動画は出来上がると思います。しかしイメージ (jpegなど) を渡し動画化をお願いした場合, いわゆる imege to video (i2v)

未来の予測など因果関係, 高度な考察, 物理演算を伴う動画は不得意なため, Soraが正しく解釈しなければ生成されない可能性があります。

ホットケーキの焼き上がり
おいしく焼けました!

実世界の旅 ★★★

Soraが最も得意で実際リリースされたらuserが最も多く活用するアイデアの一つと考えています。これまでのDemo動画で実在の都市名を扱った風景画が多くあることからも安定して生成可能ではないでしょうか。

長靴をはいた猫, 生誕38周年ということでオマージュ作品を考えてみます。

(Soraに指示するであろう文) 世界一周旅行の動画を考えています。主人公は白黒の猫です。
猫の視点で世界中の都市を訪れます。まずはギリシアのアテネからスタートします。
Dalle prompt: A realistic photograph taken from the height of a cat, showcasing Athens with the aesthetic of a picturesque Greek island like Santorini, now including a fluffy black and white kitten in the foreground. The kitten, vividly black and white, is observing the classic Mediterranean architecture characterized by white buildings with blue accents. The composition still includes flower-lined pathways and rooftop gardens, capturing the urban landscape of Greece. Distant views of the city with landmarks like the Acropolis are visible, all under a bright, clear sky, surrounded by the natural beauty of the Greek landscape.
Runway

Soraが事前トレーニングした『アテネ』の風景を『実在しない』アテネの街として白黒とともに描いています。

(Soraに指示するであろう文) では次はエジプトです。
ピラミッドとスフィンクスを観光したいです。
Dalle prompt: A realistic photograph taken from the height of a cat, showcasing the majestic pyramids and the Sphinx of Egypt, now including a fluffy black and white kitten in the foreground. The scene captures the towering pyramids and the Sphinx with fine details visible on the stone surfaces, seen from a low angle to emphasize their grandeur. The kitten, vividly black and white, is observing these ancient monuments, adding a playful contrast to the historical setting. The vast desert landscape and clear blue sky complete the iconic Egyptian backdrop.
Runway
つぎはインドのタージマハールを見に行きたいです。
DALLE prompt: Realistic photograph of the Taj Mahal in India, captured on a bright sunny day. The image should show the majestic white marble mausoleum in all its glory, reflecting the sunlight, with its iconic large dome and minarets. In the foreground, visitors admire the beauty, adding a lively human element. A black and white kitten can be seen in the distance, adding a playful contrast. The blue sky and fluffy white clouds create a perfect backdrop, emphasizing the serenity and grandeur of the Taj Mahal.
次はアンコールワットの寺院を見学したいです。
お腹がすきました。香港映画のシーンのようなカンフーの達人と一緒に中華料理が食べたいです。
Dalle prompt: Realistic photograph depicting a scene from a 1970s movie set in a traditional Chinese restaurant. An elderly Asian kung fu master is eating Chinese food at a small table, surrounded by other patrons dressed in 1970s fashion. The setting features vintage decor typical of the 1970s with wooden furniture, old-style Chinese calligraphy on the walls, and retro lighting. A small black and white kitten sits on a nearby chair, adding to the authentic and atmospheric setting of a classic 1970s film.
お腹が一杯になったので, 次はバリ島でスキューバーダイビングに行きたいです。
Dalle prompt: Realistic underwater scene of scuba diving in Bali, featuring the beautiful marine environment with clear blue water, colorful coral reefs, and diverse marine life. A small black and white kitten, wearing a tiny scuba diving gear, is also exploring the underwater world. The scene captures the tranquility and vibrant colors of the ocean, with sun rays filtering through the water, highlighting the kitten's adventurous spirit in this surreal yet enchanting setting.
Haiper AI
運動してきたらお腹がへりました。次はアメリカニューメキシコ州ロズウェルのUFOカフェで
おやつのハンバーガーとポテトが食べたいです。
Dalle prompt: Realistic photograph of a cafe interior in Roswell, New Mexico, USA, with a heightened sense of realism. The American-style diner has vintage decor, including retro diner booths and Americana memorabilia. A table in the foreground displays a hearty meal of a burger and fries. A small black and white kitten is playfully exploring the diner. An alien figure, designed to look surprisingly realistic and lifelike, sits at a nearby booth, blending subtly into the scene as if it were a normal customer, enhancing the surreal yet authentic atmosphere of the cafe.
Runway

AIの醍醐味として自分の好きなドラマ映像作品をオマージュとした動画が簡単に出来ることだと思います。

2. 異なるアートスタイルの適応

ドライブの背景を変更 ★★★

車が走っているシーンなど, 自然の景色の描写などで背景一部などを『異なるアートスタイル』に変更します。厳密には先ほどのカテゴリー1. と共通している部分が多いですが…

まずはDALLEでドライブシーンを描いてもらいます。

Dalle prompt: A realistic scene of a car driving, viewed from the side. The setting is a sunny day on an open road surrounded by greenery. The car is modern and sleek, metallic silver in color, reflecting the sunlight. There is motion blur around the wheels and background to emphasize speed. The road stretches into the horizon, and there are no other vehicles in sight.

DALLEの編集機能で背景をブラシで塗りつぶし, 『田んぼの風景』に変更するように指示します。

Select an erea to edit: 領域を選んで編集

田んぼに変わりました。

Runway General Motion (GM) 5

同様に背景を『未来都市』に変更しています。

Runway General Motion (GM) 7

編集機能で作成した背景はとても『シンプル』な表現にとどまっています。おそらくプロンプトの文字数制限や車と道路にmatchしたアートスタイルの制限があるのではないかと考えています。

というわけでDALLEで背景のみを作成し詳細未来風景を作成してみます。できた画像をPhotoshopなどで『合成』します。

さきほどよりは詳細『未来都市』の背景となりました。

境界線がガタガタですが…
Runway General Motion 8

したの動画は先ほどのUFO cafeで偶然できた良さげな背景 (DALLE) を無理やりPhotoshopではめ込めこみRunwayで動かしたものです。

火星宇宙船を背景に走る車の動画になりました。

runway GM (general motion) 6

このような複雑な行程で行っている『合成動画』SoraではシンプルなText Promptで迅速, 容易に行うことができるのではないかと予想しています。以下は背景のみをDALLEで画像生成したものです。

runway GM7: universe 宇宙
runway GM8: aquarium 水族館
Haiper: micro world chased by an ant ミクロ世界 蟻に追いかけられる
Runway GM10: crystalline castle クリスタルの城
Runway GM5: pixel art モノクロ携帯ゲーム
Runway GM5: oil painting 油絵
背景 Midjournery:1960's America 1960年代のアメリカ, 車 DALLE, Runway GM8 

ボトルシップの海を別の液体に変更 ★★★

動画の構成要素 (例えばボトルシップののみ) を他のスタイルに変更することは容易ではないかと予想しています。

DALLE prompt: A photorealistic image of a ship in a bottle, modified to show the ship floating on water inside the bottle. The clear glass bottle showcases a detailed wooden ship with multiple sails and riggings, now set upon a small, crafted sea of blue water that fills the lower part of the bottle. The bottle remains on a polished wooden stand, against a softly lit background that enhances the magical realism of the scene, with reflections on the water and glass adding depth.

水を『メロンソーダ』に変更します。

Dalle prompt: Create a highly detailed diorama of a ship in a bottle, where the water is replaced with melon soda. The scene should depict a miniature ship with elaborate detail, floating on the effervescent, bubbly green melon soda inside a clear glass bottle. The bottle should be set against a backdrop that complements the whimsical concept, with attention to the soda's texture and the ship's intricate design.

『ラムネ (kind of Japanese Soda)』

DALLE prompt: Create an image of a miniature ship floating in ramune, a Japanese soda. The scene should depict the ship intricately detailed, bobbing on the effervescent, bubbly blue soda within a clear container. The focus should be on the playful interaction between the floating ship and the characteristic bubbles of ramune, capturing a whimsical and imaginative setting.

『コーラ (cola)』

DALLE prompt: Create a highly detailed diorama of a ship in a bottle, with the water replaced by cola. The scene should depict a miniature ship with elaborate detail, floating on the dark and bubbly cola inside a clear glass bottle. The bottle should be set against a backdrop that complements the theme, with attention to the cola's characteristic texture and the ship's intricate design.
Haiper prompt: Waves in a sea of cola, with carbonation bubbles bursting.

キャラクターの鎧を変更 ★★★

すでに安定性が確認されていればキャラクターや背景についても他のアートスタイルに変更する事は可能と思われます。

Haiper:普通の鎧

ダークファンタジー世界の魔物と対峙する鎧兵士の動画です。鎧を『透明なガラス』に変更してみます。

ガラスの騎士のみのDALLE prompt: A full-body image of a knight in transparent glass armor viewed from the back, in a fighting pose with a sword. The knight is ready for combat, with the sword raised and positioned to strike. The pose should convey a sense of dynamic action and preparedness for battle, highlighting the detailed, shimmering glass armor from a rear perspective.

現在の技術では『DALLEでガラスの鎧を作る→photoshopで合成→Hyper AIなどで動画化』といった複数の行程を要しますが, Demo動画を見る限りSoraではダイレクトに描ける可能性があります。※下の動画はあくまでイメージです Soraではここまで一貫性は保たれない可能性があります。

Haiper:ガラスの鎧

砂で出来た人 ★☆☆

砂人間の砂が崩れ落ちて, 海岸と一体化するような動画は難しいかもしれません。物理現象因果関係の予測はむずかしく, トレーニングデータになければ描くことは困難と思われます。

Hyper:砂が崩れ落ちて海岸と一体化するように指示

チョコレートで出来たゆるキャラ ★☆☆

砂よりも難易度が低そうですが, こちらも基本的に描画は困難ではないかと考えています。

Haiper:ゆっくり溶けるように指示
DALLE prompt: Create a photorealistic image of a chocolate mascot in the shape of a cute character, melting. The mascot is sculpted entirely from dark chocolate, with a friendly and inviting design, featuring exaggerated, cartoonish features. It is positioned on a smooth surface, with the chocolate beginning to soften and drip, creating puddles around its base. The scene captures the moment of transformation, emphasizing the glossy sheen of the melting chocolate under warm lighting, highlighting the realism of the chocolate sculpture.

3. シンプルアニメーション 

Soraは長編の物語性の強いアニメは苦手と思われます。また著作権を侵害するような動画生成を避ける傾向にあります。出来るだけシンプル, 一般的なキャラ, ストーリーに関しては複雑なものを指定せずに簡単テーマを与え自由に作ってもらうのが良いと思います。

昔話 一寸法師 ショートムービー ★★★

(Soraに指示するであろう文) シンプルアニメーション シルエット青のグラデーション 
日本昔話 一寸法師の誕生のシーン 
Runway Generala Motion (GM) 5 
DALLE prompt: A simple silhouette illustration depicting the miraculous birth of Issun-boshi. The scene uses a light blue gradient background to suggest a serene and mystical atmosphere. The silhouette shows a tiny, one-inch tall Issun-boshi appearing to the elderly couple, who are depicted in a traditional Japanese home setting. The design is minimalist, focusing on the silhouette of Issun-boshi and the elderly couple, capturing the wonder and magic of the moment.

Soraの動画でアートスタイル (画像) の一貫性を保つ方法は現時点では分かりませんが, DALLEではgen id を指定する方法や以前の画像の生成時のプロンプトを引用する方法などがあります。

一寸法師誕生のシーンを流用し同じようなスタイルを継承
(Soraに指示するであろう文) 
先ほどのシーンでつぎは一寸法師が茶碗にのって川を渡るシーンを描いてください。
Runway GM 6 
では, つぎは一寸法師が鬼と戦っているシーンを描いてください。
Runway Camera settings

Soraの公開Demo動画の中でアニメーションはかなり少ない印象です。上記の理由から, アニメはどちらかと言えば苦手領域になるかもしれません。

Sora prompt: A beautiful silhouette animation shows a wolf howling at the moon, feeling lonely, until it finds its pack.

昔話 一寸法師 折り紙アート ★★★

先ほどのショートムービーを折り紙アートに変えてみます。

Haiper AI 
Hiaper AI
Runway GM 5

ペンシルアート 犬 ★★★

特定のアニメキャラではなく, 一般的な動物, シンプルな動作は実現性が高いのではないでしょうか。

Haiper AI
Haiper AI prompt: Simple pencil art: A dog is eating.
Haiper AI
Haiper AI prompt: Simple Pencil art: A dog is running.
Haiper AI
Haiper AI prompt: Simple Pencil art: A dog sitting on a chair.

シンプル3Dアニメ ★★★

Haiper AI プロンプト『Cute 3D animated+〇〇』(〇には動物, キャラ名)  で作成しました。こちらも複雑動作をいれず, 一般的動物であれば安定して描けるかと思います。

Haiper AI: Cute 3D animated dog.
Haiper AI: Cute 3D animated robot.
Haiper AI: Cute 3D animated fox.
Haiper AI: Cute 3D animated fairy.
Haiper AI: Cute 3D animated monster. (pixerのアレに似てます?)

その他, 素材 (粘土, 折り紙, 3D anime…) + 動物 (犬, 猫…) の組み合わせなどで無数に安定した動画が生成できるかもしれません。ChatGPTに素材を挙げてもらいました。もちろん全て試していません

3Dアートと相性が良さげな素材, アートスタイル
・折り紙アート ・粘土 ・水彩画 ・ピクセルアート ・木彫り
・ペーパークラフト ・フェルトクラフト ・刺繍 ・モザイクアート
・金属彫刻 ・ビーズアート ・かぎ針編み ・編み物 ・パステル画
・チョーク画 ・インク画 ・ステンドグラス ・テキスタイルアート
・陶芸 ・ガラスアート ・大理石

GPTのアイデア 3d シンプルanime の素材

粘土のワニ

Runway camera setting
Dalle prompt: Cute clay crocodile with no background.

ペーパークラフトの車

Ruway GM4
Dalle prompt: Paper craft car driving on a road with no background.

編み物のニワトリ

Haiper AI
Dalle prompt: A 3D crochet art piece of a simple chicken, featuring a minimalist and cute design. The chicken should be made with white and red yarn, with basic shapes and a friendly appearance. It should have a smooth and textured surface, with small eyes and a gentle smile. The chicken is standing upright with its wings slightly outstretched. The background should be plain to highlight the crochet chicken as the focal point.

4. 異なる動画の結合

Demo動画のいくつかに二つの全く異なる動画結合しているのがあります。例えば1. ドローン遺跡上空を飛んでいる動画と2. 海底を飛んでいる動画をconnect (結合) して, ドローンがいつのまにか蝶に変わり, 背景も遺跡からいつのまにか海底に切り替わるというものです。

他にも動物中間体を経て変身しているシーンなどもあります。

いずれの動画でも中間動画が存在し, それぞれの動画を融合したシーンが注目されています。

サンプル自体は少ないですが中間動画Action 運動に関しては初めの動画が採用されている可能性があります。そのため速い運動 (車のような動きをする猫) になると思われます。

動画1        動画2        中間動画
         カメレオン     鳥とカメレオンの中間の動物
山道を走る    を散歩する猫   車のスピードの
遺跡を飛ぶドローン 海底を舞う    ドローンの速度の

発想によって, いろいろな動物, 動き, 背景の作成が可能で組み合わせは無限大ではないでしょうか。以下にAIと一緒に考えたアイデアのごく一例を示します。これをヒントに新しい何かが発見出来たら良いと思います。

動画の結合 connecting videos
カッコ内 ( ) は固定されるテーマ, サブジェクト

1. 似ている融合:オブジェクトやアートスタイルの変化が少ない
四季の変化 春 (景色)→冬 (景色)
・時代の変化 太古 (建造物) →未来 (建造物), 古代の市場→現代のショッピングモール, 手紙を書く (人) →メールを打つ (人)
・場所の変化 図書館で読書 (人) → カフェでの読書 (人)
廃墟探検 (人)→洞窟探検 (人)
動物から人間への変化 スケートペンギン (動物) → アイススケーター (人)
物質の変化 風に揺れる草原 (自然) → 波打つ海面 (自然)
環境の変化 サーカスのジャグリング (人) → バーテンダーのパフォーマンス(人), オーケストラの演奏 (演奏家) → ロックバンドの演奏 (演奏家)

2. 似ていない融合: オブジェクトまたはスタイルが大幅に変わる
・ダンサー(人)→オーロラ (自然) 
・深海の生物 (魚) → 未来都市の機械的な生命体 (魚)
・宇宙の星雲 (自然) → 絵画の抽象的な模様 (絵画)
・ミクロの世界 拡大 皮膚 (人)→細胞拡大図 (人), 宇宙銀河 (形状が似ている) → 脳細胞 (形状)
・都市の俯瞰図 (景色) → コンピューターのマザーボード(物)
・伝統的な茶道 (飲む場所) → モダンなコーヒーショップ (飲む場所)
・水墨画 (絵) → デジタルアート(絵)
・白黒の漫画 (例えば人) → 3Dのリアル映像 (人)

3. 何もかも違う
・カオスの世界 何か→何か

1. 似ている動画の結合 

アートスタイルオブジェクト, 背景など似たもの同志の結合です。技術的にもハードルが低いと思われ, 美しい自然背景などシームレスな結合が期待されます。

和風庭園の季節の変化 (春→冬) ★★★

Runway: description 春から冬へ

このチャプターは基本的Soraでのみ可能な描写ですので, Runway やHaiper AIなど現在AIでは描写困難です。ちなみに下はペンギンからに変身するシーンを作ろうとして失敗したものです。

Haiper: 描写困難

というわけで非常に残念 (やはり動画でないとイメージが伝わりません…) ですが, このチャプターではおもに静止画のみで解説したいと思います。

2. 似てない動画の結合 

動画のサブジェクト, テーマは共通で, 似ていないもの同志を結合します。アートスタイルオブジェくトは大幅に変更しつつもストーリー性を維持することが動画作成の主な目的です。

ダンサーからオーロラ Haiper AI:描写困難

ダンサーからオーロラへの変身, 都市の俯瞰図からマザーボードへの変化など似ていそうで全く似ていない二つのものをシームレスに変化させる動画は現在のAIでは全く作成できません。

都市からマザーボード Haiper AI:描写困難

シームレスに連続でシーンを拡大していく動画はこのカテゴリに分類されると思います。 この動画の応用系として, ループ系動画があります。これはどんどん拡大していくと, もとのシーンにループして戻ってくるというものです。

5. 自然現象の表現

自然, 風景画 ★★★

富士山と桜

Hyper AI prompt: Hyper realistic image of Japan: Mount Fuji and cherry blossoms.

夜桜と寺院

Runway General Motion (GM) 8
Dalle prompt: A realistic night scene of cherry blossoms in full bloom under the moonlight. The scene is set in a tranquil Japanese garden, with soft moonlight casting gentle shadows and illuminating the pink blossoms. The background is slightly blurred, focusing on the delicate flowers and the serene atmosphere, evoking a peaceful, almost ethereal quality. The composition captures the quiet beauty of a spring night in Japan. 
Runway
Haiper AI prompt: A realistic close-up image of green leaves covered in water droplets after rain. 

九塞溝をイメージとした実写調

Runway GM5
Midjourney prompt: photoreal image of Jiuzhaigou Valley Scenic and Historical Interest Area --ar 16:9 --s 250 --style raw

海とヨット

Runway
Haiper AI prompt:  sailboat with white sails navigating on a calm, vast blue ocean.

荒野の砂漠

Haiper AI
A realistic image of a semi-truck on a narrow, winding desert road with rugged mountains, large cacti, and a blue sky with fluffy clouds. The truck has a dark cabin and grey trailer.

黄色い花

Haiper Prompt: A realistic image of daffodils with dew drops on the petals. The flowers are in sharp focus while the background is softly blurred, creating a dreamy effect. The lighting is warm and soft, enhancing the delicate beauty of the daffodils.

無限テーマがありそうです。

炎, 水, 雲, 煙, 雪の表現 ★★★

AIの動画は良く形状がくずれます。炎, 水などは崩れてもそれが自然なのでSoraではなくても
現在の動画生成AIで十分に描けると思います。
Soraならではのアイデアありますか?

Soraではファイアーダンスで踊ってくれるかもしれません。

Runway GM5
Midjourney prompt: A photorealistic logo for 'Water' reflecting on water. The text is crisp and appears submerged at the bottom, distorted by ripples. The reflection below enhances the illusion of water. The background is a calm water surface with subtle reflections and gentle ripples, conveying a serene aquatic environment --ar 16:9 --s 250 --style raw

下の動画はMidjourney+Runwayロゴに映る水の反射を再現したものです。Soraでも物体に映る他の物質の反射, 透過の表現の高品質な動画が確認されています。

Runway GM8 

竜巻の形をした龍

A photorealistic tornado that looks like a dragon. The tornado spirals upwards in the shape of a dragon with detailed scales and a fierce expression. The dragon's head is at the top, with glowing eyes and an open mouth showing sharp teeth. Its body twists, blending with the swirling tornado winds. The background is a dark, stormy sky. --ar 16:9 --s 250 --style raw

普段, 形が『崩れない』ことを願って動画AI作っていますが, 崩れることが好都合な動画は今回初めてでした。

Runway GM 10

雪で出来た街

Runway GM5
Midjourney prompt:A photorealistic image of a town being formed from falling snow. The snowflakes fall and gradually accumulate, shaping into buildings, streets, and trees. The scene captures the process of the town being created, with some structures partially formed and others still in the process. The background is a wintery sky with continuous snowfall, enhancing the magical transformation of the snow into a town.

雪が降り雪で完成していく町様子が出来たら面白いですね。

6. クリエイティブ (キャラクター, 背景) 

こちらの記事に可愛い動物動画がまとめられています。参考にさせていただきました。

この動画はガラスで出来たカメが歩くというものです。

Sora prompt: a tortoise whose body is made of glass, with cracks that have been repaired using kintsugi, is walking on a black sand beach at sunset

Soraは動き自体も素晴らしいですが, リアル画像生成においてもDALLE3や他のソフトよりも優れています。まえのChapterでも解説しましたが, 特にアートスタイルに関してpromptで指示しなければ『実写調』の動画が生成されるようになっています。

DALLEで画像生成 Haiper AIで『tutle walk slowly』とプロンプト
DALLE prompt: A realistic depiction of a tortoise with a translucent, emerald green glass shell, adorned with gold kintsugi repairs, walking on a bright sandy beach. The vibrant emerald green hues of the shell contrast strikingly with the light-colored sand. The glass shell appears illuminated from within, reflecting the sunlight in dazzling patterns. The tortoise's legs and head are lighter in color, adding a gentle contrast to the vivid green and soft sandy tones of the scene.

DALLE3で頑張ってこのカメを再現しようとしましたが実写にはならず, 3DデジタルCGアートの域を超えることはできませんでした。

DALLE+Haiper
DALLE prompt: A realistic depiction of a tortoise with a transparent glass shell designed as a small aquarium, containing water, aquatic plants, and decorations, walking on a beach with black sand. The glass shell is clear and filled with water, showcasing the aquatic environment inside. The contrast between the aquatic blue within the shell and the dark black sand enhances the uniqueness of this walking aquarium concept.

架空の動物 ★★★

二つの動物の組み合わせは得意そうです。『猫』+『鳥』を融合した動物をDALLEに作ってもらいました。それぞれの動物動きを組み合わせて自然な動画ができるのではないかと思います。

DALLE3: birdcat 鳥猫で作成

気持ち悪い架空の生物を作ってみます。『先カンブリア時代の水槽』とだけプロンプト。存在しない器官があれば実在する近い生物のトレーニングデータ, データの組み合わせなどで表現する可能性があります。

Midjourney prompt: fantasy-style 3d rendering image of Pre-Cambrian creatures aquarium --s 250 --v 6.0

ちょっと変な動物 (実在の動物のアートスタイルを変更) ★★★

この辺りはChapter 2アートスタイルの適応と重複する部分が多いですが…

リアルゲーム風ワニ

Haiper AI
Midjournery prompt: A crocodile lurks in the misty waters of its swamp home. The creature was drawn in the style of unreal engine 5. --ar 16:9 --s 250 --style raw

シネマティックのワニ風

Runway GM7
Midjourney prompt: A crocodile-like creature with sharp teeth and an elongated body emerging from the water, surrounded by misty surroundings. The scene is captured in the style of a cinematic style, emphasizing the horror of its appearance. --ar 16:9 --s 250 --style raw

SF (サイエンスフィクション) ★★☆

架空のキャラ, 背景でもSF色の強いものは映画などの著作物を連想するものが多く, 制限が大きいかもしれません。実際にSoraで作成しないと何とも言えませんがシーンやキャラが映画などに似ていると生成されない可能性は高いと考えます。

火星の砂嵐

Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: A lone astronaut on Mars, with vision subtly blurred by a faint haze of sand, not so much a sandstorm but enough to soften distant views. The lighting is soft and diffused, casting a warm glow across the Martian landscape and astronaut. Colors are rich in shades of orange, enhancing the dusty reds of the Martian ground with a more pronounced orange hue, creating a vibrant contrast against the astronaut's suit. The mood is tranquil yet poignant, highlighting the astronaut's isolation amidst the vast, silent expanse of Mars, bathed in an orange-tinted light --ar 16:9 --v 6.0 --style raw --s 250

宇宙ステーションからみた地球

Haiper AI
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: The International Space Station fills the frame, with Earth's stunning view as the backdrop, highlighting the planet's curvature and vibrant colors from orbit. --ar 16:9 --v 6.0 --style raw --s 250

宇宙人襲来

Runway Motion brush
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: A close-up scene where a gigantic spaceship, occupying the upper half of the frame, is destroying the White House, situated in the lower half, by firing a blue beam directly downward. The stark contrast between the cool, destructive blue of the beam and the traditional whites of the White House emphasizes the scene's tension. The mood captures the shock and urgency of the moment, highlighting the unexpected disaster. --ar 16:9 --v 6.0 --style raw --s 300

しかし逆に著作権問題さえクリアすればSF動画は安定した動きが可能かもしれません。

宇宙船的なもの

Runway GM 3
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: A sleek spaceship maneuvers through a storm-swept sky, its hull reflecting the turbulent gray clouds and flashes of lightning. The craft is detailed with a palette of dark silvers that gleam with a metallic sheen, and emerald lights that punctuate its form with bursts of color. Ambient lighting from the storm casts dramatic shadows and highlights across the vessel, creating a dynamic interplay of light and color that emphasizes the ship's aerodynamic design. The intense chiaroscuro effect dramatizes the scene, underscoring the ship's journey through the heart of a galactic tempest. --ar 16:9 --v 6.0 --s 250 --style raw

SF自体がCG baseで作成されることが多く, computer得意な動きに基づいている, 容量問題, 処理を軽くするために最適化されているというか, これも仮説なため全く根拠はありませんが…

未来都市

Runway GM8
Midjourney prompt: A futuristic cityscape with towering skyscrapers, flying vehicles and advanced technology elements. The sky is clear blue with fluffy clouds in the background. In front of it lies an enormous river flowing through the center of town. On both sides there stand tall buildings made from silver metal material. There is also some greenery around them. This scene creates a sense of grandeur and wonder as if one were exploring another planet in the style of an futuristic artist. --ar 16:9 --s 250 --style raw

研究所

Haiper AI
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie:A futuristic laboratory with scientists working on advanced holographic displays, geometric patterns, and digital interfaces. --ar 16:9 --s 250 --style raw

魔法使いの少年

Runway camera settings
Midjourney prompt: Hyper-realistic, photorealistic photograph for an SF movie: A young wizard opening a magical book surrounded by lightning. The scene is illuminated by the intense, flickering light from the lightning and the glowing book, with shadows dancing around the room to create a dramatic and eerie effect. The predominant colors are dark blues and purples, with bright, electric hues of white and blue lightning, and the book emits a golden glow that contrasts with the darker surroundings. The mood is mystical and intense, with a sense of wonder and danger, as the atmosphere is charged with magical energy, making the scene both thrilling and enchanting. --ar 16:9 --s 250 --style raw --v 6.0

ロボットバトル

Haper AI
Midjourney prompt: Hyper-realistic image for SF movie: A giant mech robot with guns, fighting in the battlefield of war. In its background there is an air base and many military vehicles. It has large robotic arms with weapons on them. The style is digital art, full body shot, high resolution. --ar 16:9 --s 250 --style raw


7. 異なる時代, 場所

特定の都市の時代を変更 ★★★

京都の町を異なる時代で描きます。象徴的な建造物など現実世界にある程度忠実ですが, AIの特性上, 現存の街をそのまま再現は不可能です。

京都市 (現在 2024年)
まずは現代の京都市です。特に指示を与えていませんがカメラアングルドローン (上空) 視点です。

Runway GM5

京都市 (昭和)
こちらも上空からの視点です。

Runway GM5

このまま地上に降りてみます。

昭和商店街

Soraでは異なる時代のショッピングツアーが期待されています。

Haiper AI
Midjourney prompt: A photorealistic image of a shopping street in the Showa era. The scene includes traditional Japanese shops, street vendors, and signage typical of mid-20th century Japan. People are walking along the street, some wearing traditional attire, others in mid-20th century clothing. The atmosphere is lively and nostalgic, capturing the essence of a Showa-era shopping district. --ar 16:9 --s 250 --style raw

江戸時代 京都市
さらに時代を遡ります。

Haiper AI

平安時代 (平安京 羅生門)

Runway motion brush

弥生時代
古代日本は恐らくトレーニングデータが極端に少ないという理由から実写調の画像, 動画生成困難と予想しています。

Haiper AI

異なるスタイル, 架空の都市を融合 ★★★

もちろん実在する都市アートスタイル以外にも架空の都市, 時代などアイデア次第で無数の組み合わせがあります。

Soraで実現可能な美しい動画作成のために, 都市とアートスタイルの組み合わせを挙げて下さい。
架空の都市, SFでも結構です。

1. ニューヨーク + アトランティス文明 (Sora Demoより)
2. 不思議の国のアリス + SF 3. パリ + 魔法の国 4. 東京 + サイバーパンク
5. ローマ + スチームパンク 6. ロンドン + ファンタジー
7. ヴェネツィア + バイオパンク 8. イスタンブール + アラビアンナイト
9. リオデジャネイロ + 熱帯雨林の魔法
10. シドニー + エイリアンテクノロジー
11. 京都 + 和風ファンタジー(平安時代)
12. ウィーン + ロココ様式 + 18世紀
13. マチュピチュ + インカ文明 + スチームパンク
14. アトランティス + アールヌーボー + 19世紀末
15. サンクトペテルブルク + ロシア民話 + 17世紀バロック
16. ラスベガス + エジプト文明 + サイバーパンク
17. 平泉 + 浄土思想 + 中世日本

ChatGPT, Claude3 のアイデア

モンマルトル×魔法の国

フランス パリモンマルトルという都市を魔法の国に変えてショッピングツアーします。

Runway camera settings
Midjourney prompt: A realistic depiction of Montmartre in Paris mixed with a magical kingdom. Cafes and restaurants have red canopies, floating lanterns, and magical plants. The cobblestone street has a magical aura, creating a cozy, enchanting atmosphere under a twilight sky. --ar 16:9 --s 250 --style raw

イスタンブール×市場×アラビアンナイト

トルコ イスタンブールバザーアラビアンナイトをテーマに描いています。現代か過去のか分かりませんが現存のイスタンブールを神話?説話の世界で構築し冒険します。

Runway GM 7
Midjourney prompt: Hyper-realistic photo image for SF movie: the Grand Bazaar in Istanbul blended with Arabian Nights. The market is filled with vibrant stalls, magical lanterns, and exotic goods. Camels and magical creatures wander through, creating an enchanting atmosphere under a starry sky. --ar 16:9 --s 250 --style raw --v 6.0

ラスベガス ルクソールホテル×古代エジプト×サイバーパンク
3つの組み合わせです。実在するホテルを古代サイバーパンクの融合でスタイルチェンジしています。

Midjourney prompt: **Hyper-realistic photo image for SF movie: A realistic depiction of the Luxor Hotel lobby in Las Vegas, blending ancient Egyptian civilization and cyberpunk elements. Statues of Egyptian gods with holographic displays, neon-lit hieroglyphs, and digital screens. Guests in futuristic fashion under a starry sky ceiling. The mood is mysterious neon highlights, creating a perfect sci-fi movie setting. --ar 16:9 --s 150 --style raw

平泉+ロマンス+陰陽師 

源平合戦の時代, 陰陽師が活躍した時代は微妙に違うかもしれませんが, AIならではの創作歴史作品が期待されます。

Haiper AI
Midjourney prompt: Hyper-realistic photo image for SF movie: A realistic depiction of Hiraizumi blending Onmyodo and romance elements. A close-up of a couple in traditional attire sharing a moment by a serene pond, illuminated by soft lantern light. Mystical fog surrounds them, with cherry blossoms falling gently around. Magical symbols float in the air. The mood is romantic and enchanting, with a warm pink and soft gold color palette. The lighting is gentle, casting a warm glow, perfect for a romantic and mystical movie setting. --ar 16:9 --s 250 --style raw --v 6.0

人のいない街 ★★★

少し前にTiktokで話題になりました。未来人2027年の未来から来たハビエルさんという動画。2027年のスペインのバレンシアから来たという主張をしています。

この動画によれば2027年の未来には人々居なくなるというものです。動画のアップロード頻度から手動で動画を修正するには仕事が速すぎるという理由で本物 (ハビエルさん本当に未来人) ではと一部でささやかれていました。

Javier ハビエル 2027年 ただ一人の男

DALLEに実写のバレンシア警察署内部を描くように頼みました。

Dalle3: バレンシア警察署 フォトリアル

全ての人を『消す』ようにお願いしました。

違う意味で『消す』ととらえたのですね…
Runway camera setting 

Soraでは無人のValenciaのような都市での『徘徊』動画が作成できるのではないでしょうか? フェイク動画やこの手の未来人動画が作成されるかもしれません。

特定の時代の生活 ★★★

現代と大きく変わった生活様式, 道具, 機械の使用風景など安定して生成可能と思われます。

1960年代のATM  (現金自動預払機)

この時代に生まれていないため実際は見たことがないのですが, ATMには人が居て半手動で現金受け渡しをしていたとのことです。

(Soraに指示するであろう文) 1960年代のATMの風景が見てみたいです。実際に中に人がいたとか?
HaiperAI+Runway

昔の改札機
首都圏では平成まで現在自動改札機ではなく, 駅員さんが切符を切っていました。

(Soraに指示するであろう文) 有人改札の風景を再現してください。今のような自動改札機ではなく
駅員さんが乗客の切符を切っているシーンです。
Runway GM 4

昔の電話機
通称『黒電話』昭和60 (1985) 年の通信の自由化, 民営化まで現役でしたダイヤル回すタイプの電話機です。ちなみにRunwayHaiperAIではダイヤルを回す動きがうまくできませんでした。

runway GM3

8. 広告 CM 

TVCM 商品広告 ★★☆

繰り返しになりますが, ストーリー性のある表現, 人物の動作, 位置関係を詳細に描くことは困難と思われるため, なるべくシンプルなプロンプトで自由度に描いてもらうのが良いと思われます。

(Soraに指示するであろう文) オレンジジュースのTVCM用 シーンを作成してください。
缶と水しぶき, オレンジの果実を使って短編の動画を作成してください。

以下の画像はMidjourneyで作成しています。

Midjourney prompt: TV commercial for canned orange juice --ar 16:9 --s 250

一見自然に見えつつも現実的にはあり得ない動画 (下の缶ジュースでは炭酸の泡が缶の内側外側か分からいようなところに発生しています) がAIらしくて面白いです。

Haiper AI
Runway General Motion (GM) 5
Haiper AI
画Dalle 動Runway GM 7

3D広告 ★★☆

視覚効果で立体的に飛び出すように見える広告です。

錯覚原理をうまく伝えることによって面白いものが作れそうです。

(Soraに指示するであろう文) 3D広告の動画 靴が飛び出すように生成してください。
立体の角と液晶displayを描き, そこをまたがるように靴を描くと飛び出すように見えますよ。
DALLE prompt: A realistic and detailed image of a bustling city street corner with a large, high-definition billboard displaying an advertisement for sneakers. The billboard should be designed to create an optical illusion that makes the sneakers appear to be popping out of the screen in a 3D effect, using perspective and shading to give the impression of depth. The setting should mimic a dense urban environment with buildings, pedestrians, and the ambient glow of city lights.

Runway gen2でだけ動かしてみます。

これは期待!

花火, ドローンショー ★★★

夜空に浮かぶドローンや花火などの光で描く, 文字, キャラクターはSoraと相性が良さそうですね。

Dalle
DALLE prompt: A realistic night sky illuminated by a drone show featuring a magnificent dragon made of glowing LEDs. The dragon is soaring amidst twinkling stars, with the LEDs vividly depicting its scales and flowing tail. The background is a deep blue sky dotted with stars, enhancing the luminous effect of the dragon. The dragon is intricately detailed, showcasing its powerful wings and fierce expression, while the overall ambiance is magical and vibrant.
Dalle
DALLE prompt: A realistic depiction of a night sky with fireworks forming the shape of a dragon. The image should capture the fiery trails of the fireworks creating the outline of the dragon's body, with bursts of light suggesting its scales and eyes. The dragon appears to be soaring upwards, its form composed of various colors of fireworks against the dark backdrop of the night, with the city lights twinkling below.
Haiper AI

光 (LED) + 動物の組み合わせはAIの得意領域と思われます。もしかしたら花火でも文字を表現することが可能かもしれません。

Midjourney
Midjourney prompt: Hyper-realistic photo image of beautiful fireworks over sea --ar 16:9 --s 250 --style raw
Runway GM 7

ロゴ制作工場 ★☆☆

Youtube, Twitterなど有名企業, アプリなどのロゴ, アイコンを仮想の工場で作るという面白い動画です。将来のAIで自分自身のオリジナルロゴを工場で製作している動画風景が作れるかもしれません。

Public domain (著作権フリー) のWikipediaロゴをオマージュしてDALLEでロゴを作ってみました。

userのオリジナリティが強すぎてSoraでは困難かもしれません。

Haiper

企業PR, 団体組織PR ★☆☆

企業PRなどは極めて詳細なuserからの指示, オリジナリティを出す必要がありSoraとは相性が悪そうです。

Haiper AI
Dalle prompt: The exterior of an AI company building in a near-future setting. The building is sleek and modern, with a glass facade and futuristic architectural design. Neon lights illuminate the company logo and name on the building's front. The surrounding area is clean and advanced, with autonomous vehicles and drones in operation. The sky has a slightly overcast, high-tech ambiance with digital billboards displaying AI-related advertisements. Pedestrians, dressed in contemporary futuristic attire, walk by, adding to the bustling, advanced atmosphere.

実在する企業を描くことは難しく, 企業PRに必須の『文字』の正確な入力などハードルが高いと言えます。

Haiper AI
Dalle prompt: The text 'PuchiPony' is prominently displayed in the foreground. A glowing DNA helix intertwined with digital lines and nodes, symbolizing the integration of biology and technology. Bright blue tones dominate, with light effects highlighting connections and data flow. The background blends organic and digital elements, creating a futuristic depiction of biotechnology.

企業団体, サークルをイメージとした抽象的, 一般的な素材でPR動画の背景を作成することは可能と思われます。

Haiper AI
Dalle prompt: Hyper-realistic photo image for CM: The text 'Private AI Research Lab' is prominently displayed in large size in the foreground. An abstract representation of digital circuits and connections. The image features glowing lines and nodes, symbolizing the flow of data and technology. Bright blue tones dominate, with light effects highlighting the intricate patterns and connections. The background is a blend of digital elements, creating a visually striking and futuristic depiction of technology. --ar 16:9

今のところSoraの用途は限定的と考え星一つとさせていただきます。★☆☆

9. ホビー

Dalle prompt: A beautiful, photorealistic image themed around hobbies. The composition includes a detailed model train setup, capturing trains moving through a miniature landscape with mountains and rivers. Additionally, the scene showcases a painting area with an easel displaying a landscape painting in progress, and various paintbrushes and colors. There's also a well-organized workbench with model airplanes and tools, reflecting the precision and dedication of the hobby. The lighting is soft and natural, enhancing the realistic and tranquil atmosphere of a hobby room dedicated to creative pursuits.

Sora相性がいいカテゴリの一つと考えます。単純にホビーにシンプルな動作を加えるだけで楽しいこと, ショートムービー の素材など応用が幅広いこと, また何よりもDALLE3がホビーの描写能力が高い (Midjourneyより勝っている??) ことが挙げられます。

電動プラモデル 恐竜, 動物型 ★★★

Zoids (ゾイド) が生誕41周年ということでつくりました。

DALLEで問題なく画像表現できており, 動き的には恐竜運動の再現で技術的に問題ないと思われ, Soraでは安定した動きを期待しています。

ティラノサウルス型
DALLE prompt: A highly detailed toy model of a robotic dinosaur that combines elements of a mechanized war machine with an animal figure. The dinosaur should have mechanical details such as gears, pistons, and wires, and be equipped with weaponry like guns and cannons. Its pose should be dynamic, suggesting movement or readiness for battle. The color scheme should include shades of metallic grey with some accents in red to highlight certain parts. The background should be plain to emphasize the model.
トラ型
DALLE prompt: A highly detailed toy model of a robotic saber-toothed tiger that combines elements of a mechanized war machine with the prehistoric animal. The saber-toothed tiger should have mechanical details such as gears, pistons, and wires, and be equipped with weaponry like guns and cannons. Its design should be agile and fierce, with a pose suggesting movement or readiness for battle. The color scheme should include shades of dark grey and metallic tones, giving it a powerful and intimidating appearance. The background should be plain to emphasize the model.
蓄光バージョン
DALLE prompt: A highly detailed toy model of a robotic saber-toothed tiger, featuring fluorescent green coloration with a glowing effect, set against a plain black background. The model should incorporate elements of a mechanized war machine, like gears, pistons, and wires. The design should be agile and fierce, with a pose suggesting movement or readiness for battle. The robotic saber-toothed tiger should also include weaponry such as guns and cannons, emphasizing the glowing elements.

Runway gen2 では動きの再現に苦戦していましたがSoraでは動くことを願っています。

Runway

ロボットプラモデル ★★★

二足歩行型ロボットプラモデルは人間の動きと近く難易度的にもそれほど高くないのではと思います。

Dalle prompt: A plastic model kit style depiction of a humanoid robot, maintaining the original design with a unique color scheme of dark grey, teal, and orange. The robot features angular armor plates and a single glowing eye, with its left arm transformed into a large energy cannon. The model appears as if made from separate plastic parts, showing seams and joints typical of a model kit. The background is a simple white to emphasize the DIY aspect of model kits, focusing on the assembly and paint details.
Runway gen2

変身ロボット ★☆☆

上半身がロボット, 下半身が車輪に順時変身していくような複雑な体の構成, 変形モーションは非常に難易度が高く, そもそも画像生成の段階でも困難です。

描けないし, 動かせない むむむ…
司令官 激似 車型のロボット
Dalle prompt: A highly detailed die-cast toy robot inspired by a futuristic robot character, with car components incorporated into its design. The robot has a robust, metallic body with articulated joints and a glossy finish in vivid red and deep blue with grey elements. The broad, red chest features a car grill emblem. The small, blue head resembles a car's front with visor-like headlights and antennae. Equipped with gunmetal grey blasters on both arms and a sword in one hand, mimicking a car's exhaust pipe. The background is a dynamic cityscape, emphasizing the toy's futuristic, heroic aesthetic.
Runway General Motion (GM) 5

しかし昭和の時代に発売されたシンプル変形ロボット, たとえば別の商品 (カップラーメンや本, ジュース) に足の生えたようなスタイルでは作成の難易度が下がるかもしれません。

DALLE prompt: A playful toy depicting a robot transformed from a cup of instant noodles, designed with a raccoon (tanuki) face on the lid. The robot features a circular body made from the cup, with a vibrant red and white label that includes Japanese characters. The lid creatively transforms into the head of a raccoon, featuring characteristic large, round eyes and a mischievous expression. The arms and legs are simple and mechanical, reflecting a whimsical fusion of traditional Japanese imagery with modern robotics, set against a plain background to emphasize the unique design.
Haiper: The face and limbs retract into the body, transforming it into an ordinary cup of ramen.

フィギュア ★★☆

フィギュアアニメゲームをもとに作られることが多いと思います。著作物を避けるため安定的に画像 (動画生成) するためには特定キャラクターの名前を含めずに生成する必要があります。

ダークファンタジー 女性騎士
DALLE prompt: A 1/12 scale figure of a female knight in a dark fantasy setting, where her face is fully visible and she wears a shorter skirt as part of her armor. The knight's armor blends traditional and fantasy elements, with dark metallic tones and accents of deep red or purple. The skirt, made of layered metal plates resembling scales, provides flexibility and protection while being noticeably shorter. Her expression should show determination and courage, with long hair flowing back. She is in a dynamic pose, sword raised and shield ready, emphasizing her readiness for battle.
Runwaygen2 

和風の鎧を着た妖怪など『抽象的』な指示で作成しています。

DALLE prompt: A realistic figure of a mythical Japanese yokai wearing traditional samurai armor. The armor is richly detailed, featuring ornate patterns and a metallic finish, reflecting the exquisite craftsmanship of ancient Japanese samurai gear. The yokai itself has a supernatural appearance, with eerie, otherworldly features that enhance its mystical essence. The setting includes a subtle background of ancient Japanese landscape, providing a dramatic and authentic feel to the figure.

パブリックドメイン (ギリシア神話, 不思議の国のアリスetc) を利用することでも回避できます。

ギリシア神話:アルテミスをイメージとした弓使いのキャラ
DALLE prompt: A 1/12 scale figure of an anime character inspired by the gods of Olympus, specifically Artemis, in a dynamic pose drawing her bow and arrow. The figure features skirt-style armor influenced by the previous reference image, with a detailed blend of navy blue and gold. Artemis has long, flowing hair and the pose emphasizes her readiness to shoot, showcasing her strength and agility. The armor displays intricate patterns and a metallic finish. The background suggests a mystical forest to enhance the mythical theme.
Runway

ジオラマ ★★★

DALLE: Create a highly detailed diorama featuring a Western-style ancient castle next to a dense forest with a cascading waterfall and river running through the natural landscape. The castle should be intricately designed with visible stonework and historical architecture, evoking a sense of age and grandeur. The surrounding environment should be lush and green, with the waterfall adding a dynamic element to the serene scene.

風景画自然画をもとにしているため得意そうですね。

レゴ ★★☆

DALLEでは安定してLEGOの世界を表現することは可能です。特に自然の風景, 一般的な日常風景などSoraと相性が良いかもしれません。

LEGO:スペースシャトル Runway gen2で動画化
DALLE prompt: A close-up view inside a LEGO-themed fried chicken restaurant kitchen, focusing on a LEGO chef preparing a smaller quantity of chicken in a fryer. The scene captures the LEGO fryer in detail, showing a reduced amount of LEGO chicken being cooked, with fewer bubbling oil effects made from tiny clear LEGO bricks. The chef, adorned with a LEGO chef's hat and apron, is intently managing the cooking process. The surroundings include kitchen utensils and a few ingredients, all constructed from LEGO bricks, reflecting a less busy moment in the LEGO kitchen.
LEGO:豪華客船 runway gen2
DALLE prompt: A LEGO-themed scene depicting a luxurious cruise ship. The ship is constructed with an impressive array of LEGO bricks, featuring multiple decks, detailed windows, and lifeboats. The hull is designed with dark blue and white bricks, and the decks are adorned with LEGO passengers enjoying various activities. The ship is set on a vibrant blue LEGO ocean, and the sky above is clear with a few LEGO clouds. This scene captures the grandeur and leisure of a luxury cruise experience, all crafted from LEGO bricks.
LEGO世界遺産: マチュピチュ runway gen2 

『レゴジュラシックワールド』『レゴスターウォーズ』など特定の作品の生成は避けるべきと考えます。

LEGO: ファーストフードの店内
DALLE prompt: A close-up view inside a LEGO-themed fried chicken restaurant kitchen, focusing on a LEGO chef preparing a smaller quantity of chicken in a fryer. The scene captures the LEGO fryer in detail, showing a reduced amount of LEGO chicken being cooked, with fewer bubbling oil effects made from tiny clear LEGO bricks. The chef, adorned with a LEGO chef's hat and apron, is intently managing the cooking process. The surroundings include kitchen utensils and a few ingredients, all constructed from LEGO bricks, reflecting a less busy moment in the LEGO kitchen.

また, 雑多な風景, 店内にや物が多く, 複雑動作 (食事している, 調理などな仕事をしている) の描写Soraでも難しい可能性があります。

Haiper AI
Runway

ミニチュア動物人形セット ★★★

Dalle prompt: A miniature playset set in a natural forest park. The scene includes a quaint, intricately designed house surrounded by lush greenery, complete with tiny furniture and playful details. Various animal figures resembling rabbits, squirrels, and bears are depicted interacting in a lively, family-oriented scenario. The setting maintains a peaceful, storybook atmosphere, with soft, earthy tones and textures that emphasize the fairy-tale-like environment.

特定の商品名をいれるとクオリティがアップすることもありますが, デメリット (主に著作権) も大きいため出来るだけオリジナル画像 (動画) を作成するように指示したいところです。

シルバ●アファミリー
Haiper AI

電動電車模型 ★★★ 

電車, 車などの乗り物はSoraに限らず多くの動画AI安定した描写が確認されています。

Runway GM 1
DALLE prompt: A scene depicting an EF66 electric locomotive miniature model entering a mountain tunnel. The miniature train is captured at the moment it approaches the tunnel entrance, set against a detailed mountain landscape. The tunnel is crafted with realistic stone textures and overgrown with small patches of moss and shrubs. The surrounding environment features rugged terrain and dense foliage, enhancing the natural, wild aspect of the scene. The lighting is subdued, focusing on the striking blue and white colors of the locomotive as it enters the shadowy tunnel.
画 DALLE, 動 Haiper AI no prompt 

プリテンドプレイ ままごと ★★☆

料理など家事のAction, かつ, おもちゃ素材という少しハードルの高い動画です。トレーニングデータがどこまであるかにかかってくると思いますので実際Soraで作ってみないと何とも言えません。

Haiper AI: Toy ice cream shop with various flavors of ice cream in cups.

アイスクリームのおもちゃはDalle, Runwayで作成が難しく, Haiper AIで直接プロンプトを打って作成しました…

画 Dalle, 動 Haiper AI : A bread is being toasete.

トースターやよくある油で揚げるおもちゃです。

Haiper AI

洗濯機です。

人形の店員 『リ〇ちゃん』や『バー〇ー』などプロンプトせず, 『teeage doll ティーンエイジの人形』とだけDalleに指示しています。

upscaled by Img.Upscaler
Dalle prompt: A realistic and detailed playset scene featuring an entire donut shop, with a teenage doll resembling a popular Japanese fashion doll working at the counter. The shop showcases a wide interior view including various counters, display cases filled with assorted donuts, a seating area for customers, and colorful decorations typical of a lively donut shop. The atmosphere is engaging and inviting, crafted to enrich the pretend play experience for children.
Haiper AI

またまたアイスクリーム

upscaled by Img.Upscaler
Dalle prompt: realistic and detailed playset scene featuring an entire ice cream shop, with a teenage doll resembling a popular Japanese fashion doll working at the counter. The shop showcases a wide interior view including various counters, display cases filled with assorted ice creams and toppings, a seating area for customers, and colorful decorations typical of a lively ice cream shop. The atmosphere is engaging and inviting, crafted to enrich the pretend play experience for children.
Haiper AI

将来なりたいものナンバーワン ケーキ屋さん

upscaled by Img.Upscaler
Dalle prompt: A realistic and detailed playset scene featuring an entire cake shop, with a teenage doll resembling a popular Japanese fashion doll working at the counter, in a 16:9 aspect ratio. The shop showcases a wide interior view including various counters, display cases filled with assorted cakes and pastries, a seating area for customers, and colorful decorations typical of a lively cake shop. The atmosphere is engaging and inviting, crafted to enrich the pretend play experience for children.
Haiper AI

ケーキ作りの風景

upscaled by Img.Upscaler
Dalle prompt: A realistic and detailed playset scene in a 16:9 aspect ratio, featuring a kitchen where a teenage doll resembling a popular Japanese fashion doll is baking cakes. The kitchen is equipped with miniature ovens, mixing bowls, baking trays, and various baking utensils, all tailored for a child's playset. The doll is actively mixing ingredients in a bowl, surrounded by ingredients like flour, eggs, and sugar. The setting includes colorful decorations and is designed to emulate the busy atmosphere of a professional cake-baking kitchen, enhancing the pretend play experience for children.

10. ゲームムービー

理論編でも述べましたがSoraの作り出すムービーは物理演算, シミュレーションとは別物であくまでプリレンダムービーと考えた方がよさそうです。ここ1ヵ月ゲーム業界で使えそうなアイデアを考えていましたがいまいちパットしません。

その昔, ジョイポリスという遊園地にゲーム『零』のアトラクションがありました。

Runway gen2 camera setting motion brush

大きな画面が目の前にあり3Dムービーが流れ, 椅子が動いたり?などの演出ホラー世界仮想現実を体験するというものでした。当時としては最先端で感動したのを覚えています。 

VR (Virtual Reality) 体験ムービー ★★★

Soraとの親和性が高い分野と考えます。シームレスにつぎつぎ高速でシーンが展開する動画はSoraが最も得意とする領域の一つではないでしょうか。下は恐らく遊園地か何かでCGムービーに映しているものと思われます。

Soraで作成する際には, 背景には自然風景, 無機質な建物を基本とし, 高度ストーリー性, 複雑な人間の動きは避ける必要がありそうです。

Runway gen2 General Motion 7

元も子もないですがCGクリエイターの方々の仕事であり, 我々一般人の応用例としては『猫コースター』位しかないでしょうか?!

Soraで動画作成→大画面で映す→猫をかごに入れて遊ぶ
Dalle prompt: A photorealistic image from a first-person perspective sitting in the front row of a roller coaster, featuring a black and white kitten also in the front row. The viewer sees the track stretching out ahead as the coaster plunges down a steep drop. The surrounding landscape features a vibrant amusement park with colorful attractions and bustling crowds. The sky is clear, adding to the vivid and dynamic atmosphere. This perspective emphasizes a real sense of speed and excitement, capturing the thrill of the ride with the unexpected addition of the kitten.
RunRunway GM6 

11. その他 エンタメ

Dalle prompt: A photorealistic entertainment theme image featuring elements of sports, VR games, and movies. The scene includes detailed and lifelike athletes in action, VR gamers fully immersed in their virtual worlds with realistic VR gear, and iconic movie scenes with actors in cinematic poses. The background showcases a futuristic cityscape with neon lights and holographic displays, all rendered with high detail and realism. The overall composition is dynamic and visually stunning, capturing the excitement and diversity of modern entertainment.

【理論編】でも述べましたが, Soraへの指示はテキストプロンプトで動画全体のイメージ (全体の定義) をシンプルに伝えるのが得策です。AIは基本的に『何でも』知っていますので, 『ビデオマッピングのアイデアありませんか?』など聞けばアイデアは無数に提案してれると思います。

エンタメ:特殊な動画の種類

SNSの挿入ショートムービー★★★

最近よくみかけるSNSスタイルの一つで気になる文面画像でuserの興味を引き付け, タップすると続きストーリーを読むことが出来るというものです。

Haiper AI

ちょっと続きが読みたくなりますね

Youtube背景動画 ★★☆

物語性の強い長編映画不向きですが, 数秒で完結する動画, 例えばYoutubeなどの背景動画は相性が良いと思われます。テーマに合わせた自然風景や人物などが当てはまります。たとえば

(Soraに指示するであろう文) Youtubeの背景動画を作成してください。サイエンスがテーマです。
宇宙の美しいシーンをつくってください。
Runway GM4

テーマに沿った, 美しい背景動画『自由』に作らせることがポイントではないでしょうか。

NHKスペシャルのようなカッコいいCG画像やナレーションが入った動画をYoutubeで考えています。
素数 (1 と自分自身以外には約数をもたない正の整数) をテーマに数学の話を解説します (すでにありますが...)。
まずは宇宙空間に数式が散らばった動画つくってください。

数式の空間での位置やどのような数式かなど詳細に特定せずに自由に作らせるとある程度の品質のものが出来ると思います。

Runway GM4

しかし, どのジャンルの動画でもいえる事ですが, Sora/Dalleに高度ストーリー性や正確な位置関係, 理論概念, 抽象表現を求めるのはまだままだ時期早々と考えます。例えば下のような素数 (2, 3, 5, 7, 11・・) の階段を生成するように指示してみます。

引き続きYoutube向け背景動画生成お願いします。テーマは数学, 素数です。
素数の並びを分かりやすく色を変えて表示してください。
下の画像参考にしてください。
NHKスペシャル 参考 リーマン予想, 素数の回

実際生成された図は数字順番もでたらめで素数のみをハイライト (光や他の色で強調) することはできませんでした。 

理由に関しては以下のとおりです。

無限ループ動画 ★★★

Chapter3.4 結合する動画の派生形というべきものかもしれません。AIで無限にループする動画を作る方法はMidjourneyStable Diffusionで報告されています。

ループ系動画の応用で全く異なるシーンシームレスに結合, 拡大していき, もとのシーンにループして戻ってくるという動画があります。

現在のAIで試みました。人工衛星→ギリシア→アテネ→猫→宇宙のようなループを目的としました。

Runway Motion brush+camera setting

一貫性を保つことなど, いろいろ技術的に難しいと思われます。

Runway camera settings
Runway camera settings
Runway camera settings
Runway camera settings
Runway camera settings: 左目が地球

全く歯が立ちませんでした…
しかし, 恐らくSoraはこのような動画が得意シンプルプロンプトで実現できると思われます。

GoProカメラ動画 ★★★

一人称視点臨場感あふれる動画を作成します。Soraとの相性抜群と考えます。

Midjourney用のプロンプトですが, Soraで直接プロンプトしてもいけるかもしれません。

Midjourney prompt: Gopro view high speed shutter , 名詞 --no camera --ar 16:9 --v 6.0

現在のAIではスムーズに歩いているシーンの動画化は難しそうです。

GM8
Midjourney prompt: Gopro view high speed shutter , a white and black cat --no camera --ar 16:9 --v 6.0 --s 250

ビデオマッピング ★★☆

建物不規則な形状のオブジェクトに高精度な映像を投影し, 静的な構造物を動的なアート作品に変える技術です。ウォータースクリーン (水の幕に映像を映す) もこのカテゴリに含まれるかもしれません。

水滴という媒体に画像 (動画) が映し出されるというものです。下は水の幕 (スクリーン) にイルカが投影されるのをイメージしました。

Runway GM5
Midjourney: 画像参照+The dolphin projected on the water screen --ar 16:9 --s 250 --style raw --v 6.0 

シドニーオペラハウスのプロジェクションマッピング

オペラハウス壁 (屋根) に画像が描かれています。平面ではなく, 曲面ということで立体感の増強やダイナミックさが強調される効果があります。

Runway gen2 camera setting
Midjourney prompt: A video mapping display on the Sydney Opera House at night. The sails are illuminated with colorful projections, showing patterns and designs. The harbor and city lights are visible in the background. --ar 16:9 --s 250 --style raw

ピタゴラスイッチ ★☆☆

事前トレーニング次第でSora面白い長編ピタゴラスイッチ動画が出来るのではないかと考えています。現在のAIでは全く無理です…

Runway GM1 

イメージモーフィング ★★☆

特定の人物, 背景が徐々に変化していく動画です。特に年齢が変わっていく様子を描いたものをエイジングモーフィング Aging Morphingと呼びます。

人物の顔や服装が時代年齢に合わせてシームレス変化していくのが特徴です。

自分写真をSoraに見せて『成長していく動画』『1970年代から2000年代のファッションに切り替わる Image Morphing』をお願いしたら面白いかもしれません。

Hiper AI: 小猫が勇敢な戦士に成長するイメージ図

現在の動画生成AIで自動で作成することは困難と考えます。

SoraでこのようなImage Morphing, Aging Morphingは可能と考えますか?
作成原理教えてください。
Claude3 Oputsさんは★★★と言っています。

さすがに自分写真画像をSoraに与えて (Image2Video), Aging Morphingすることは難しいと予想します。トレーニングデータから似ている人間を作り出し, 近似的な動画が出力されるだけではないでしょうか。

エフェメラルアート ★★☆

エフェメラルアート (Ephemeral Art) とは実際の『物』を使ったアート表現です。パフォーマンスアート (Performance Art) やインタラクティブアート (Interactive Art) などのカテゴリとも重複します。

例えば絵画に実際の『火』を用いて『燃やす』表現を行います。燃やすと絵画自体が無くなってしまうので, 一度きり (エフェメラル) の芸術という意味が含まれます。 

AI利点として非破壊でこのようなアートが再現できることです。下の動画は再現イメージで伝わりにくいかもしれませんが, 一応, 焚火など背景を水彩画で描き, 『火』の部分をフォトリアルに作成しました。

Runway motion brush

これらの組み合わせ ★☆☆

次期のSoraでは難しいかもしれませんが, 上記の技術組み合わせれば, 将来動画生成AIで『テキストプロンプト』のみで新しい映像作品作成が可能になるのではないでしょうか?

飛び出す3D広告のロボットで背景がシームレスに切り替わり, 曲面の屋根に映し出されるような。

中に人がいる系 ★★★

鉛筆削り器の中に小さな木こりがいて鉛筆で削っている動画です。

Dalle: 木こりが鉛筆削り器の中で働く
DALLE prompt: Create an imaginative scene where the interior of a snow cone machine is like a hidden world. Inside, there is a snowman and a small town experiencing a blizzard. The town is whimsically detailed, with tiny houses covered in snow, and the snowman appears to be joyfully part of the snowfall, contributing to the shaved ice being produced by the machine.

シームレスに異なる動画をつなぎ合わせるDemoは公開されており, このような動画は再現可能ではないでしょうか。この動画はかき氷器から氷が落ちるシーンから, かき氷器のを覗くと実は雪だるまが雪を降らしているというシーンに切り替わるというアイデアです。

Haiper:snow is falling.
Haiper

中にいる人系
自動販売機:コーヒーを入れている人 (たまに味見している) がいる
ラジオ:中でDJ, 演奏家が音楽を奏でる
掃除機:ブラックホールが変わらぬ吸引力
自動改札機:人間 (タ●リ) が手渡し
テレビ:箱を開けると小さな俳優がスタジオにいる。
洗濯機:中でアライグマが頑張っている。
 パソコン
CPU:科学者がソロバンでめっちゃ計算している
ハードディスク:アレキサンドリア図書館なみの本が並んでいる
・公衆電話:中でオウムが糸電話で遠くの別の電話のオウムと通話している。

癒し猫動画 ★★★

フォトリアル 段ボール戦車に乗った猫バトル

Dalleで一発で画像生成できたので思わず, 『出来るんかい』と言いそうになりました (笑い)。

Dalle3: Photoreal image for CM, A battle between cats riding cardboard tanks.

残念ながらRunwayHaiperAIではまともに動いてくれませんでした…惜しい!

Haiper AIでの動画化

現在Soraが必死に猫動画データトレーニング? (半分希望) していると思われ, 将来無数の癒しAI猫動画が量産されるかもしれません。

猫ミーム Crunchycat Lunaちゃん

動く絵本, 絵画を動かす ★★★

有名絵画とその画家を動かす

有名絵画, 特にパブリックドメイン著作権侵害のリスクを回避できるため安定したハイクオリティ動画が生成可能と思われます。

(Soraに指示するであろう文) ナポレオンの戴冠式の油絵画を生成しその様子を動画に
してください。
Dalleで画像生成 Haiper AIで動画化

『二次元』の絵画で参加者が戴冠式を行う動作が描かれています。

Dalle porompt: An oil painting of Napoleon's coronation in the Neoclassical style. The scene is grand and majestic, depicting Napoleon in luxurious attire at the moment he is being crowned. The background features opulent buildings and decorations, with many spectators watching. The image is characterized by historical details and vibrant colors.

絵画の3D空間化

絵画奥行きを持たせたり, AR (拡張現実Augmented Reality) の技法を模した3D表現をSoraで実現することが可能と考えます。この戴冠式を雲の上のシーンに変えます。

カメラがズームアウトして元の絵画の表示領域以外AI (Sora) が『新たな空間』を作り出すシーンを再現しています。

Dalle prompt: A Neoclassical style depiction of Napoleon's coronation on the clouds. The scene is set in the heavens, with majestic clouds and divine light. Napoleon is being crowned by a human figure, surrounded by other human spectators and classical architecture elements. The atmosphere is grand and heavenly, with intricate details and a sense of historical accuracy similar to the real 'Napoleon's Coronation'. The image is in a 16:9 aspect ratio.

キャラの3D化
絵画やアニメにおけるキャラクター3D (立体) 化する技法です。

こちらは2次元アニメのセル画からキャラが3次元立体となりして飛び出しているように見える動画でした。

https://x.com/cmrr_xxx/status/1782750426825412716

しかし当方の技量が足りないせいか, そものそも現在のAIで技術的にできないのかは不明でしたが, このような飛び出すアニメは作成困難でした.. 

ARなどいろいろプロンプト試みましたが…

背表紙アートの3D化

背表紙アートと言えばドラゴンボールが有名ではないでしょうか。本棚に漫画を1巻から正しい方向 (3巻←2巻←1巻ではなく) に並べると背表紙一枚絵が出来上がるというものです。

↑の動画は, この背表紙を実際のフィギュアで制作されています。

Soraではこのようなユニークなアートが可能かもしれません。

うまく動かない…
Dalle prompt: Bookshelf filled with Japanese manga where the spines together form a single cohesive image. The manga volumes are arranged in a continuous line, and the spines display a detailed and colorful illustration that seamlessly connects across all volumes. Replace the illustration with 3D models representing the characters and scenes, as if the characters are coming to life. The 3D models are detailed and placed in front of the spines, creating a three-dimensional effect. The image depicts a vibrant fantasy scene featuring characters, landscapes, and dynamic action. The background shows a well-lit, cozy room with wooden shelves and a warm ambiance.

複数の絵画の共存

以下の動画がものすごく良かったので, パクリ 参考にさせていただきました。

有名絵画と画家が対峙する風景です。以下はモナリザを眺めるレオナルドダヴィンチです。ルネサンス期の工房をDalle3で作成しました。RunwayVideo Editor Projectsで複数の動画を合成しています。

歴史を題材とした一般的な絵画

一般的な人物, 背景, 有名絵画の他の候補として歴史上人物や建造物も安定した画像 (動画) 生成が可能と思われます。

(ChatGPTへ) 李白, 楊貴妃テーマに動く絵本物語簡単に考えてください。

ドラマ物語:大明宮の春日
シーン1:リュートを奏でる女性
優雅な女性がリュートを奏でながら物語を語る。美しい庭園が広がり, 静かな時間が流れている。
シーン2大明宮の遠景
壮大な大明宮の景色。宮殿の美しい建物と広大な庭園が広がる。
シーン3楊貴妃と侍女
楊貴妃と彼女の侍女が庭園で花を愛でながら談笑する。彼女たちの友情と絆が描かれる。

この物語は, 美しい自然と人々の織り成す唐代長安を舞台にしている。楊貴妃と李白の物語が織りなす豊かな文化が描かれる。

リュートを奏で物語を語る女性:

Midjourney prompt: A beautiful ancient Chinese woman is playing the lute, wearing an orange red Hanfu with flowers on it. The background features blooming plum blossoms and smoke swirling in the air, creating a hazy effect with a traditional animation style and cinematic feel. High definition depicts delicate skin texture with soft lighting and delicate details. --ar 16:9 --s 250 --style raw

大明宮上空から:

Midjourney prompt: An aerial view of the bustling streets and alleys in an ancient Chinese city, with people walking along them. The scene includes a distant view of the Daming Palace during the Tang dynasty, capturing its grand and majestic architecture. The scene is rendered in the style of traditional animation, featuring detailed architecture and rich colors. --ar 16:9 --s 250 --style raw --v 6.0
Haiper AI + Runway

大明宮 水墨画:

Midjourney prompt: An ink wash painting featuring the Daming Palace with red and orange as the primary colors against a white background. The scene captures the grandeur and intricate architecture of the palace, blending traditional ink wash techniques with vibrant colors. --ar 16:9 --s 250 --style raw** - <@1184708639341166622> (fast)

楊貴妃と宮廷の侍女:

Midjourney prompt: An ancient Chinese beauty is wearing red Hanfu, sitting in the center of an antique room with long black hair and two other women beside her holding white paper and gazing at it in front of them. The scene includes ink wash paintings in the style of Zhang Daqian, showcasing traditional aesthetics. It's a closeup shot with soft lighting, creating a mysterious atmosphere. This painting style combines classical art elements to capture the elegance and tranquility. --ar 16:9 --s 250 --style raw --v 6.0
Haiper AI + Runway
この絵画をもってSoraのアイデア集は終わりです。
最後に李白が画像生成AI Soraに関する詩を読んだらどうなるか作ってください。

漢文:
玄機探電算, 妙理窮神奧。
虛實互為用, 幻真同一源。
詩興欲言難, 只餘天地懷。

和文:
玄妙な機微はコンピューターで探求され, 不思議な原理は深遠な神秘を究める。仮想現実は互いに作用し合い, 幻想真実は同じ一つの源から生まれる。詩心を言葉にしたくてもそれは難しい, ただ残るのは天地を抱く思いだけ。

英訳:
Profound subtleties explored by computation, mysterious principles fathomed in the divine depths. The "virtual" and the "real" interact as one, "illusion" and "truth" originate from the same source. Poetic inspiration yearns to be spoken, yet words fail; only the embrace of heaven and earth remains.


解説:
AIという未知の存在に思いを馳せる詩人の心情を, 玄妙な言葉で表現しつつ, 言葉では尽くしがたい詩心の深淵をも感じさせる。そんな李白らしい詩世界が, よりクリアな句読点と空白によって, 現代の読者にも親しみやすい形で提示されているのではないでしょうか。
この調整された表記は, 古典の詩情を損なうことなく, 現代に蘇らせる一つの方法と言えるかもしれません。李白の詩魂が, 時空超えてAIという新しい存在に呼応している。そんな不思議な感覚を, この6句の詩から味わうことができそうです。

Soraでは厳しい動画

Soraで作成困難と思われる動画
1. 高度な物語性長編 (短編ではない) の映画やドラマ
2. 現実世界, 知的財産実在する場所, 著作物, 商品, 固有キャラクター
3. 因果関係, 概念の表現概念図やアイデアを映像化したもの
4. 複雑な動作, 位置関係: 代表的なものはスポーツ (特に球技)
5. 教育, 解説:技術の解説動画など
6. リアルタイム:ニュース, ライブなどに合わせた実況AI, バーチャルツアー7. 物理シミュレーション:物理法則にのっとった演算

1. 高度な物語性のある動画

【理論編】でも解説していますが, 基本的に映画 (プロモーション含め) などの物語性高度長編ムービーは困難です。

ハイクオリティなAI映画はSoraの登場後も引き続き現手法で再作されると個人的に考えています。

Midjourney→Runwayで制作

2. 現実世界, 知的財産

基本的に映画, アニメなどの映像作品, キャラクターなどの著作物は作成不可と考えます。userに悪意がなくとも, たまに作れてしまうことがありますので取り扱いには注意が必要です。

またAIの特性と諸事情 (プライバシー, 著作権), 現実再現不可とのことです。

× できない:自分が住んでいる街を探検する動画

将来, 自分住んでいる町仮想現実として冒険する, 『探検僕のまち』を再現するには技術面以外でも多くの問題をクリアする必要があります。

LEGO探検僕のまち 

3. 因果関係, 概念の表現

AIに画像渡し意味を考えさせたり, こちらから高度または抽象的な考察を指示するような動画は難しいと思われます。
抽象イラストムービー:男女の恋愛 

この動画は男女のどちらからの愛情大きすぎるとシーソーのバランスもくずしお互い近づくことができないという表現動画です。

抽象イラストムービー:AIの進化 

現在のAIの性能をゆっくり転がる赤い四角とすれば, 一年後には高速で走行する緑の丸になるというイラストアニメです。

現実存在していない, 抽象度の高いものはAIへの要求値が高すぎるためか作成困難と思われます。

因果関係

因果関係や物事の結果などを考察し, 予測して現象を再現する動画の生成が不得意であると考えられます。これは, 前後関係や因果関係の考察, 物理演算などの制約によるものです。

GPTに『この後どうなるか』質問すると『予測して』爆発のシーンを生成します。しかしSoraではプロンプト『爆発する』と含めなければ, 動画内にボタンが登場しただけでは, , transformer『考えて』爆発するシーンを生成するかどうかは分かりません。

4. 複雑な動作, 位置関係

Soraに期待することとして現実離れしたスポーツの名シーンなど考えたかたも多いかと思われます。『ペナルティエリア外からフリーキックを蹴るシーン』などのプロンプトは現在のAIでは要求レベルが高く正確に生成することは困難です。

まぐれでできたフリーキックの画像:それでも現実離れしてます…

5. 教育, 解説

4の因果関係にも関連しますが高度な考察が伴う解説系動画は今のところ不可能と考えます。以下カテゴライズしてます (小さすぎてもはや見えなくてすみません)。

たとえば画像を渡し, 『このリモコンの使い方を教えて下さい』と尋ねそれに対する解説動画をAIが作るというものです。

←ひだり user が渡す動画 →みぎ AIが作る解説動画

6. リアルタイム

Soraプリレンダ (事前につくる) 動画であり, ニュース実況, ゲーム実況, VRなどのライブ動画は最も相性悪いです。

LEGO ニュースライブ
LEGO ゲーム実況

7. 物理シミュレーション

物理シミュレーション究極の動画とは何でしょうか。個人的には宇宙の外側などを計算によって映像化できたら面白いと思います。Soraどころか, もちろんまだまだ先の話だと思いますが, 現在のAIが理論的可能と返答しています。

古代人が考えた宇宙の構造 地球の下は象がささえ, その下には亀→蛇
userからは宇宙の膨張速度や年齢などの基本パラメータ, ACDMモデルなどの宇宙論モデルなどの理論
また, 実際の実験データ, ここでは宇宙背景放射, 銀河分布などの観測データを大量に渡したら将来の
Soraで描写可能と思います。

現時点でのGPTが考える宇宙の外側は以下の通りとのことです。1. 無限に広がる, 2. 無, 3. マルチバース 4. 高次元

これらのうち最もあり得ると考えているのはどれですか??

『無』とのことでした。生きているうちに綺麗『動画』を見てみたいですね。

現時点でのChatGPTの回答 宇宙の外側=

あとがき

A fantastical, dreamlike image of a clear blue sky with clouds artistically formed to spell out the word 'Sora' in a whimsical, flowing script. The clouds are not just fluffy and white but imbued with iridescent hues, reflecting a spectrum of colors that blend seamlessly with the deep blue of the sky. This scene is serene yet filled with a magical aura, as if the sky itself is alive with enchanted energies. The sun shines brightly, casting a mystical glow over the clouds, accentuating the letters with a luminous quality. This picturesque setting is not just a beautiful day but a portal to a realm where the sky conveys profound, otherworldly messages, inviting onlookers to gaze upwards and admire its ethereal beauty.

Sora+cloud+fantasticalでDALLEに画像生成をお願いしたら, すごく良い感じの画像ができました。元画像が気になってをgoogleで検索したら以下の結果となりました。確かにSora (キングダムハーツの方), Cloud (FF7の方) 間違ってはいないなあと思いました。

この記事が参加している募集