見出し画像

OpenAIはなぜ #Sora を"world simulators"(世界シミュレータ)と表現したのか?

text to videoの革新性が注目されるSoraですが、その進歩はアート表現的な話に留まらないな、と思わされたのはこの2つの動画。



https://openai.com/research/video-generation-models-as-world-simulators
https://openai.com/research/video-generation-models-as-world-simulators

OpenAI が"Interacting with the world."と言っているのは何を意味するのか?

それは、一つ目の動画だと【筆という主体】が【カンヴァスという客体】に「書く」という相互作用のシミュレーションをしており、二つ目の動画だと、【男性の口および歯という主体】と【ハンバーガーという客体】の「噛む」というシミュレーションをしている、と。動画をよく見ると一つ目の動画で、筆を置いてないところに花が描かれるなど一部でシミュレーションが失敗していますが、Soraという動画生成モデルが、動画内のオブジェクト同士の作用を理解し、予測できるようになる兆しと受け取めています。

OpenAIは現在のSoraの制約/限界としてまだ基本的な物理法則を正確にモデル化していないとしていますが(コップの動画)これも時間の問題だと思われます。

主体と客体とそれらの相互作用を理解し、シミュレーションできるということは、現実世界に起こるものをシミュレーションできてしまうということ。

例えば現実世界に「A」という状態と「B」という状態があり、その変化を実際に現実世界で最も早く適切に、無駄なく起こすためにはどのような手法が望ましいのかを、おそらく人類よりも正確にシミュレーションするようになるのではないかと思います。

これが、OpenAIが #Sora を"world simulators"(世界シミュレータ)と表現した理由だというのが、今日時点での私の考え/推測です。

すごい時代を生きているとつくづく思います。
あと40年くらいしか生きられないのが少しさびしいくらいに。

ロベルト


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?