「世界モデル（World Models）」とは何か。AIの未来の鍵を握る、その起源とポテンシャルについて

Masaya.Mori 森正弥 / CAIO (Chief AI Officer)

2024年5月24日 19:08

本記事は、今後のAI技術発展の鍵を握っている「世界モデル（World Models）」について、その由来となった論文を参照しながら、今後の可能性や課題も含めてざっくりと解説します。

「世界モデル（World Models）」について

「世界モデル（World Models）」とは何か？という問いに対して、短く答えるならば、「エージェントを取り巻く環境を、観測からの学習によってモデルとして獲得する枠組み」です。「AIに環境の変化や行動の結果を効率的に学習・予測させる技術」の一つであり、AIによる「想像とそれによる学習と判断」を実現させる手法とも表現できます。つまり、AIに「想像力」をもたせる技術です。生成モデル、強化学習、ディープラーニング、ロボティクス、シミュレーション、メタバース、そして認知心理学という様々な分野が重なり合うところに存在し、マルチモーダルLLMとのシナジーも期待されている技術です。

世界モデルは、Google Brain 所属（当時。現在は Sakana AI のCEO）の David Ha 氏と LSTM の考案者である Jürgen Schmidhuber 氏によって2018年に発表された「World Models」という論文に由来しています。この論文では、シミュレートされた車がレーストラックで自動運転を学習するための手法が探求されています。それを通して、AIエージェントが環境をどのように認識し、インタラクションを行うかのモデルを革新的な方法で提示したため、大きな関心を集めました。

エージェントとは、強化学習において「環境内で決定を行ったり行動を取るシステム」を指します。論文では、エージェントに予測的な方法で環境とインタラクションする内部メカニズムを持たせる提案がされました。これにより、エージェントが行動を取る前に、「こういう行動を取ったら、こういう結果になるな」と予測した上で判断し行動を選択させることができることを示したのです。

論文「World Models」での提案手法

論文「World Models」ではどのような手法が取られているかについて簡単に述べます。
エージェントの内部アーキテクチャは、Vision(V)、Memory(M)、Controller(C )の三つの部分で構成されます。

Vision：各映像フレームを処理し、高次元の画像データをコンパクトな低次元の表現に変換します。

Memory：圧縮されたデータを使用して、環境の次の時点（つまり、未来）における状態を学習し、モデリングします。そうすることで、環境、つまり世界がどうなっていくか、という内部モデルを構築します。

Controller：VisionとMemoryからのデータを分析し、潜在的な報酬を最大化する行動を選択します。

Visionにおける画像フレームの次元削減には、変分オートエンコーダ（VAE）が使用されています。VAEにより、エージェントが遭遇する大量のデータ（例えば車が道路を走行している際の大量の画像データなど）を、潜在空間（Latent Space）と呼ばれるより管理しやすい圧縮形式に変換します。この潜在空間は、Memory部において未来の状態を予測する基盤として重要です。標準のオートエンコーダと異なり、VAEでデコードプロセスにランダム性を導入することで、新しいデータのバリエーションを生成可能なモデルとなっていることもポイントになっています。

Memoryでは、その潜在空間を利用して、環境の未来の状態を予測します。ここでは、リカレントニューラルネットワーク（RNN）が使われており、圧縮されたデータ（＝エンコードされた経験）に基づきながら、エージェントの現在の理解と行動を考慮に入れ潜在空間がどのように時間とともに変化するかが自己回帰（Autoregression）を用いつつモデリングされています。つまり、エージェントが時系列に従って潜在的な未来をシミュレートする形になっており、提案手法の革新的である箇所の一つです。

Controllerでは、Visionからの現在のデータと、Memoryが予測した未来状態をもとに、行動を決定します。ここでは強化学習的な手法で、Controller 部分におけるモデルのパラメーターが更新されていきます。これにより、エージェントは合理的な結果を得るための（強化学習の文脈では、報酬を最大化する結果を得るための）最適な行動を決定します。

このVision、Memory、Controllerという３つの部分からなるアーキテクチャによって、AIエージェントは、シミュレートされた環境でのレーストラックの巧みな走行を実現するなど高い学習能力を示すことに成功しています。

「世界モデル」と認知心理学における「メンタルモデル」との類似

上記、Vision、Memory、Controller という３つの部分からなるアーキテクチャにおける処理の中で、特に興味深いのは、Visionからの「現在のデータ」と、学習済みのモデルである Memory による「予測（未来のデータ）」を組み合わせ、Controller が現在進行で学習しつつも意思決定していくという構造です。外部からの情報にも基づいていますが、この意思決定プロセスは、直接的には、Memory部の内部モデルによって作成された、いわばシミュレーション環境の中で行われていることになります。この革新的なシミュレーション環境の構築とそれを用いた意思決定を指して「世界モデル（World Models）」という用語が使われています。

これは、人間で例えるなら、眼の前の状態と既に学んだ経験・知識に基づいて頭の中で想像し、その想像した結果から取るべきアクションについて考え、意思決定する、というプロセスに似ています。これは、認知心理学でいうところの「メンタルモデル」に該当します。

「世界モデル（World Models）」はつまるところ、AIが自らの「メンタルモデル」を獲得する方法と言い換えることもできます。

世界モデルにおける「生成的理解」という「想像とそれによる学習」

世界モデルを理解するにあたっては、AIエージェントが単にその内部に「世界（シミュレーション環境）」を持っているだけではないことに注意が必要です。人間が「メンタルモデル」において想像力を働かせて学ぶことができるように、「生成的理解」とも呼べる処理をはさんでいるところがポイントです。

例えば、人がバスケットボールのシュートについて考えるとき、自分の視覚を含めた身体的手掛かりをもとに、架空のシュートの実行とそれによる結果を頭の中に（何度も試行錯誤しながら）作り上げます。仮に普段からバスケットボールのシュートをしたことがなかったとしても、想像力を駆使してこれらのイメージを生成することができます。こうすること（「メンタルモデル」における想像力の駆使）で、人はシュートに対しての理解を実際にシュートを打つことがない中でも深めることができます。

古い例になりますが、1991年に出版された書籍「Basketball FundaMENTALs: A Complete Mental Training Guide Paperback」（バスケットボールにおけるメンタルモデルでのトレーニングの重要性を説いた本）では、Clark University での調査が引用されています。それによると、20日間、1日20分、実際にシュートの練習をさせた大学生と、メンタルモデル内での（つまり、「想像」での）シュートの練習をさせた大学生との比較で同じシュート成功率の上昇が見られたという報告があります。

この想像による理解の進展は、架空のイメージを生成して理解を深めるという処理から、「生成的理解（generative understanding）」とここでは呼ぶことにしますが、世界モデルは、同様に、過去データからのデコードにおける生成を踏まえて、エージェントの行動からの結果を予測することで理解を深めます。これにより、一般的な手法より学習効率を高めることができます。

世界モデルにおける、生成的理解という処理をはさんだ、シミュレーション環境とインタラクションすることでの学習は、学習効率の観点では非常に有益です。このプロセスは実際にその行動を試す前に、安全で制御された仮想空間でスキルを練習し、洗練させることを可能にします。それ自体は人間の「メンタルモデル」での学習と同じですが、AIの場合、実世界で実際に体験をして学習を行うことよりも、はるかに効率的かつ大量に、仮想の内部モデル内を用いた学習を行うことができます。自動運転車を実際に走行させて学習するよりも、シミュレーション環境での学習の方がはるかに時間効率的であり、何万回もの走行経験をつませることが可能になるからです。そのため、精度向上への効果はより大きく期待できることになります。

世界モデルの更新と判断力の向上

シミュレーション環境という仮想の中で車を何万回も走らせることで膨大な経験を積むことになります。大量の走行データと事故データも集めることができ、世界の解像度を上げるように、世界モデルもより高度なモデルとして更新することを実現できます(理論上は)。この更新はエージェントが限定的な情報しかないときでも適切に状況や次に起こりうることを推定することを可能にさせることでしょう。「車が走行する世界」を高いレベルで獲得したAIは、稀にしかおきないような状況の中でも、次に何が起こるかを想像し、どのようなアクションを取るべきかの判断を巧みに実行することができるようになります。

世界モデルの汎用性とさらなる道

論文「World Models」で提案されているエージェントの内部アーキテクチャをさらに見ていくと、その汎用性に気づかされます。Memory 部分で内部に世界モデルを構築していますが、この世界モデル自体は特定のタスクに依存せず、汎用的に成立します。つまり、AIは初期時点において一般的に環境や行動を学ぶことができ、自分がいる世界とそのダイナミクスに関する理解に重点を置くことができます。そして、世界の理解が確立されてから、Controller 部分での報酬の設定を変更することで、特定タスクや特定の価値観（報酬関数）に最適になるようにAIの振る舞いを導くことが可能です。しかも世界モデルがあるがゆえにこの学習は効率的なものになります。この世界とタスクの分離は、AIの汎用性を高め、より多様かつ複雑なタスクの実行を可能にさせていくこと、つまり、AGIの開発につながっていく重要な鍵となります。

世界モデルは何も車の運転やバスケットボールのシュートのような、実空間における物理的な制御、意思決定に対してだけのものではありません。例えば、数学の問題を解く際にどのような戦略で数式を解いていくべきかを想像したり、絵を描く際にどのように描写を進めることでより創造的な絵を描くことができるのかを考えたり、そのような知的活動や創作活動においても適用することが可能です。世界モデルは、それぞれのタスクにおいてそれぞれの世界の理解にもとづいた計画と実行をはたすことができるようになります。

画像認識AIをブレークスルーさせた CNN （畳み込みニューラルネットワーク）の創始者であり、LeNetを考案した現代AIの権威である、Yann LeCun氏は、動物や人間が持っている知能をどのように人工的に獲得するかというテーマにおいて世界モデルの重要性を提唱しており、世界モデルベースの完全な認知アーキテクチャ構築に取り組んでいます。以下の論文「A Path Towards Autonomous Machine Intelligence （自律機械知能への道）」では、その考え方、体系が整理されており、世界モデルのさらなる汎用化が示されています。

参照）論文「A Path Towards Autonomous Machine Intelligence （自律機械知能への道）」および関連資料

OpenAIの動画生成AI Sora について

話は少し変わりますが、2024年2月15日（現地時間）、OpenAI がテキストプロンプトから最長1分の動画を生成するAIモデル「Sora」を発表しました。現実的で表現力豊かな動画が作成できるとして、翌日、日本でもTV、新聞を含めて様々なメディアが報じました。

最初の報道の中では、このニュース映像にあるように「動画生成AI」として説明されることが多かったのですが、実は、OpenAI 自身は Sora をそう説明しておらず、「世界シミュレーター」として開発していると述べています。Soraを紹介したWebページの中で、Soraは、物理世界における人間、動物、環境をシミュレーションし、世界の状態に影響を与えることができる動作もシミュレーションできる機能を備えている、世界シミュレーターと解説しています。

つまり、OpenAIにおいて、Sora は世界モデルを構築する技術として認識・開発されていることになります。「Soraは、AGIを達成するための重要なマイルストーンになると我々は考えている」とも述べています。ここは、彼らの技術開発ロードマップやそこに向けたアプローチを含め、関心が惹かれるところです。

世界モデルとLLM とのシナジー

世界モデルは有望な技術でありますが、ありとあらゆる問題において効果的に意思決定を行うことができるかというとそうではありません。人間にとってはそれほど難しくない問題であっても、取り上げた David Ha氏らの手法だけでは、解決するのが難しい問題というのもあります。（Yann LeCun氏は、そのような問題も克服するものとしての完全なアーキテクチャの構築を想定していますが、ここではLLMとのシナジーについて述べます。）

David Ha 氏らが考案した手法は、生成的理解と強化学習での適応が肝となっていますが、それらで解決するのが困難な部分に関しては、LLM（特にマルチモーダルLLM)での認識・評価を組み合わせることでのシナジーの可能性があります。例えば、以下のはてなブログのエントリーでは、強化学習ベースのアプローチでは、とても解くのが難しい（しかし、人間であればすぐに解くための道筋の検討がつく）Atari社の「モンテスマの復讐（Montezuma’s Revenge）」というゲームを引き合いに、マルチモーダルLLMによる環境の解釈からのディレクションを与えることでスムーズに問題を解決させていく例が示されています。言うなればこれは、まず大まかな戦略の方向性を決めるのにLLMを用い、そこから強化学習をさせて解いていく方法ということになります。

しかし、現状、LLMは処理速度が遅くなりうるという課題があり、LLMと世界モデルのシナジーはリアルタイム処理が必要とされるところにおいては適用できないケースがあります。これはコンパクトなLLM、あるいはオンプレミスなLLMによって改善が期待できますが、それでも問題の種類によっては効果的ではない適用もありえます。以下の論文では、自動運転における意思決定においてLLMの訓練データのバイアスが存在する課題が指摘されており、LLMに過剰な期待をするのは時期尚早であることが示唆されています。

要は、世界モデル単独では解決が難しいが、LLMのディレクションを入れることで効果的に解決できるというユースケースをどう選んでいくかが肝になるわけですが、世界モデルのポテンシャルを広げる手段として、LLMとの組み合わせの意義は大きいでしょう。

世界モデルと信頼性の向上

ポテンシャルの高い世界モデルですが、今後はどう安全かつ透明性を持った、信頼できるアーキテクチャを構築するかについての議論も重要になるでしょう。

例えば、世界モデルを適用した自動運転車においては、透明性や解釈可能性が十分でない場合、故障時にどのように現象の原因を特定し、それを取り除いていくのかが困難になるという問題もあります。また、世界モデルを用いて企業の意思決定システムや診断システムを高度化していこうというした際には、社会的なコンテキストの中で問題視されうるバイアスが存在しないことを示す必要があるかもしれません。

いわゆる説明可能なAI（XAI）の構築に関する研究成果は、世界モデルにも反映されるべきと言えます。加えて、どのような価値観（報酬関数）をもってAIの振る舞いの最適化を導くかというところにも人の知恵が求められます。人間の洞察を世界モデルに継続的に反映させていく仕組みづくりも不可欠です。人間参加型（Human-in-the-loop）学習で培われているノウハウとの統合も必須となるでしょう。

終わりに

以上、世界モデル（World Models）の概要とその特徴、可能性について概観しました。世界モデルは、AIに想像とそれによる学習・判断の能力を備えさせる包括的なアーキテクチャに支えられた画期的なアプローチであり、AIに汎用性を持たせ、多様かつ複雑なタスクを解く基盤を与えるものです。

世界モデルは、今後のAIの発展の方向性を占う技術の一つと言えます。AIに世界をどう内在させるか、そして「想像」の機能を担う「生成的理解」をどのような形で実装していくかによって世界モデルのあり方が決まります。実装によっては、AIの性能のベースラインを今現在の水準より著しく高めていくことも可能になるでしょう。世界モデルの研究が進むことによって、多様な分野での先進的なAIアプリケーションの開発と展開の道が開かれることは間違いありません。

とはいえ、Yann LeCun氏は、世界モデルが今後十数年におけるAI開発の重要なテーマであるとしつつ、世界モデル（あるいはYann LeCun氏が提唱する世界モデルベースの認知アーキテクチャ）が持つ限界についてはまだよくわかっていないと述べています。同時に、到達される学習と予測の性能の高さゆえに、世界モデルをどう安全かつ公平なものとして構築できるかは重要な論点になります。世界モデルを安全に実現できてこそ、我々はAIを社会を支えていく、信頼できる次世代のパートナーとして進化させていくことができるでしょう。

この記事が気に入ったらサポートをしてみませんか？