見出し画像

空間AIとは何か? 『AIアーキテクチャの次なるフロンティア』

19,719 文字

空間人工知能とは一体何やねん。AIの女神様として知られるフェイ・リーさんが、空間知能に関するAI企業を立ち上げるために何億ドルもの資金を調達したんや。これから空間知能について説明していくで。そして、彼女と有名なベンチャーキャピタル企業a16zとのインタビューも見ていくわ。そこで彼女は、人工知能の未来は現実世界を理解するものになるって語ってはるんや。
それと、24インチのDellモニターのプレゼント企画もやってるで。応募するには、ワイのニュースレターを購読するだけでええねん。詳細は下の説明欄に載せとくわ。
まず、フェイ・リーさんについて説明しとこか。彼女は有名なコンピューターサイエンティストで、人工知能の分野に多大な貢献をしてはる人物や。特に視覚的知能、つまり現実世界を理解することに情熱を注いでるんや。
ヤン・ルカンさんは、「言語だけでは世界モデルを作るのに十分ではない」って言うてはる。世界モデルというのは、現実世界を理解する人工知能のことやね。実際に世界を見る必要があって、言語だけではそれができへんのや。だからこそ空間知能がこんなに期待されてるわけやな。
じゃあ、彼女の主な功績を見ていこか。その前に、このインタビューについて説明しとくわ。a16zのYouTubeチャンネルで公開されてて、リンクは説明欄に載せとくで。結構長い動画やから、1.2倍速で再生していくわ。
それじゃあ、ここからがフェイ・リーさんの話や。
「ここまでどうやって辿り着いたのか、あなたの主な貢献や洞察について少し説明してもらえますか?」
「今はとてもワクワクする瞬間やね。個人的には20年以上この分野に携わってきたけど、最後のAIの冬を越えて、現代AIの誕生を見てきた。そして、ディープラーニングが台頭して、平文テストのような可能性を示してくれた。今では技術の深化と産業界での採用が進んでて、言語モデルのような初期の可能性が実現されつつあるんや。今はまさにカンブリア爆発の真っただ中にいるような感じやね。文章だけじゃなくて、画像、動画、音声など、あらゆるモダリティでAIアプリケーションやモデルが登場してきてる。本当にワクワクする瞬間や」
「あなたのことはよく知ってるし、多くの人もそうやと思うけど、AIの世界で育ったわけじゃない人もおるから、簡単に経歴を説明してもらえるかな?」
「もちろんや。AIに出会ったのは学部の終わりごろやったな。数学とコンピューターサイエンスを専攻してたんやけど、最後の方でグーグル・ブレインのH・リーやアンドリューたちが発表した有名な『猫』の論文に出会ったんや。これが初めてディープラーニングという概念に触れた瞬間やった。これからの10年以上を決定づける魔法のようなレシピに出会ったんやね。非常に汎用性の高い学習アルゴリズムに大量の計算能力と大量のデータを組み合わせると、魔法のようなことが起こり始めるっていう。2011年か2012年頃にこのアイデアに出会って、「これや!これをやりたい!」って思ったんや」
「それで大学院に行く必要があると思って、スタンフォード大学のフェイのところに行ったんやね。当時、ディープラーニングに取り組んでる人はほとんどおらんかったから。それは本当に素晴らしい時期やった。ディープラーニングとコンピュータービジョンの分野で、最初の技術が実際に機能し始めて、多くのアプリケーションに広がっていった時期やねん」
「2012年頃から、初めて商業的に利用可能な画像理解ツールが登場し始めたんや。メタが製品をリリースしたのを覚えてるわ。画像の中の物を簡単に説明するだけで、それを丸で囲んでくれるんや。当時は本当に驚くべきことやった。今では当たり前になってるかもしれんけど、10年以上前に初めてそれを見たときは完全に度肝を抜かれたわ」
「その後、言語モデリングの始まりや、判別的なコンピュータービジョンの始まりを見てきた。写真を撮って、その中にある物を様々な方法で理解することができるようになってん。生成モデリングの初期の段階も見てきたな。画像を生成したり、テキストを生成したりするやつや。これらの基本的なアルゴリズムの多くは、実は私の博士課程の頃に学術界で解明されたんや」
「毎朝目覚めると、arXivで新しい論文をチェックするのが楽しみやった。クリスマスの朝にプレゼントを開けるような気分やったわ」
「今でもそんな気持ちやね。新しい論文が発表されるたびにワクワクして、早く読みたくなるんや」
「私の学生たちと研究室が、おそらく他の多くの人たちよりも早く気づいたのは、データにモデルを駆動させれば、これまで見たことのないような力を引き出せるということやった。それが、イメージネットというちょっと狂ったような賭けに出た理由なんや」
「当時見られてた規模を忘れて、何千ものデータポイントをという感じやった。NLPコミュニティには独自のデータセットがあって、UCIのデータセットを覚えてるわ。本質的には、OpenAIがやったことは、あの有名な『Attention Is All You Need』の論文を取り上げて、データセットを何十億ものパラメータまでスケールアップさせただけやねん」
「彼らが他の多くの人たちよりも早く気づいたのは、スケールアップすれば、それらのスケール則が確実に適用されるということやった。少なくとも商業的なアプリケーションに持ち込むという点ではね」
「イメージネットやNLPのデータセットは、数千か数万のオーダーやったんやけど、われわれは「インターネット規模まで持っていく必要がある」って思ったんや。幸いなことに、ちょうどインターネットの時代が到来しつつあったから、その波に乗れたんやね。そんな時期にスタンフォードに来たんや」
「われわれがよく話すエポックについて。イメージネットは明らかに、コンピュータービジョンを作り出した...少なくとも人気で実現可能にしたエポックやね。生成AIの波については、主に2つの核心的な解除について話すんや。1つは『Transformers』の論文、つまり注意機構についてのもの。もう1つは安定拡散について。これは公平な見方やろか? つまり、この2つのアルゴリズムの解除が学術界やグーグルから来て、そこからすべてが生まれたってことかな? それとも、もっと意図的なものやったんかな?」
「彼が説明してるのは、『Attention Is All You Need』の論文やね。これが今日のすべての大規模言語モデルの基礎になっとるんや。そして安定拡散は、すべての生成アートモデルの基礎になっとる」
「興味深いのは、最近起こったこと、というか我々がその力を理解し始めたことやけど、推論時の計算っていうのがあるんや。これは人工知能をスケールアップできるもう1つの次元やね。モデルのトレーニングに使うデータを増やすだけじゃなくて、モデルに『考える』時間を与えて、その思考プロセスをスケールアップすることで、出力が改善されるんや。モデルが使うトークンの数を増やすってことやね」
「我々は、昔と同じくらい魅力的な時代にいるんやろか? それとも、あまり話題にならんけど、ここまで我々を導いた他の大きな解除があったんやろか?」
「そうやな、大きな解除は計算能力やと思うわ。AIの話はよく計算能力の話になるけど、どれだけ人々がそれについて話しても、過小評価されてるんやないかな」
「過去10年間で見た計算能力の成長は驚異的やね。コンピュータービジョンにおけるディープラーニングのブレイクスルーの瞬間とされる最初の論文は、アレックスネットやった。2012年の論文で、ディープニューラルネットワークがイメージネットチャレンジで本当に良い成績を出して、フェイたちが取り組んでた他のすべてのアルゴリズムを圧倒したんや」
「アレックスネットは6000万パラメータのディープニューラルネットワークで、2台のGTX 580で6日間トレーニングされたんや。GTX 580は当時の最高級コンシューマーカードで、2010年に発売されたんやね」
「昨夜いくつか数字を調べてみたんやけど、面白いことに、彼らが説明してるGTX 580を、ちょうどその頃、2010年か2011年に4、5台購入して洗濯かごに入れて、横にファンを置いてビットコインをマイニングしたことがあるんや」
「NVIDIAの最新鋭はGB200やけど、GTX 580とGB200の間の生の計算能力の倍率を誰か当ててみる?」
「さあ、どうやろ?」
「数千倍やね。昨夜数字を計算してみたんやけど、2台のGTX 580で6日間かかったトレーニングが、1台のGB200では5分弱でできるんや」
「ジャスティンは本当に良い指摘をしてるわ。2012年のアレックス論文、そう。彼らが説明してるのは、NVIDIAが今や世界で最も価値のある企業の1つになった正確な理由やね。NVIDIAは何十年もの間、GPUを並列処理ユニットとして作ってきた。それはずっとビデオゲームやビットコインマイニングにしか使われてこなかったんや。並列処理や大量の数学的計算を高速で行うのがGPUの得意分野やからね」
「そして、ジェンセン・ファンとNVIDIAは、AIの波が大量の並列計算を必要とすることを先見の明を持って理解し、非常にうまくポジショニングしたんや。おそらく史上最高の企業成功譚の1つやろうね」
「アレックスネットとコンボリューショナルニューラルネットワークの違いは実質的にGPUだけなんや。2台のGPUとデータの洪水、それだけの違いやね」
「そこに行こうと思ってたんやけど、多くの人が今『ビター・レッスン』というものに馴染んでると思うんや。ビター・レッスンが言うてるのは、アルゴリズムを作るなら、利用可能な計算能力を活用できるようにしておけってことやね。なぜなら、利用可能な計算能力はいずれ登場するからや」
「一方で、別の説もあるんやけど、これも同じくらい信憑性がありそうなんや。それは、ディープラーニングを解放したのは実は新しいデータソースやっていう説やね。イメージネットは良い例やけど、多くの人が言うには、トランスフォーマーの自己注意機構は素晴らしいけど、これは人間によるデータのラベル付けを利用する方法でもあるってことやね」
「なぜなら、文章の構造を作ってるのは人間やからや。CLIPを見ても、インターネットを使って、人間がaltタグを使って画像にラベル付けをしてるのを実際に利用してるってことやね」
「これはデータの話であって、計算能力の話じゃないんや。じゃあ、答えは両方なのか? それとも、どちらかがより重要なのか?」
「両方やと思うわ。でも、本当に良い指摘をしてくれてるね。私が思うに、アルゴリズムの面で明確に区別できる2つの時代があるんやわ。
イメージネットの時代は実際には教師あり学習の時代やったんや。教師あり学習の時代では、大量のデータはあるけど、データそのものをどう使うかはわからへんかった。イメージネットや当時の他のデータセットに期待されてたのは、大量の画像を集めることやったけど、それぞれに人間がラベル付けする必要があったんや。トレーニングデータのすべてに、人間のラベル付け担当者が1つ1つ見て、その画像について何かを言うてたんやね。
でも、大きなアルゴリズムの突破口は、人間がラベル付けしたデータを必要としないトレーニング方法を見つけたことやったんや。
ここで少し止めてみるわ。この1週間ぐらい、最近の動画でも話してきたけど、人間がAIの成長の根本的な制限要因になってるんや。鉱石のデータセットにしても、データセットのラベル付けにしても、はたまた研究そのものにしても、人間が制限要因になってるんやね。
もしAIモデルが他のモデルのために本当に優れた、無制限のデータを高品質で生成できるようになったら、突然、知能爆発が起こるかもしれへんわ。
それから教師なし学習があって、これは基本的にAlphaGoが行ってたことやね。人間の介入なしに、碁のゲームの多くの順列を試して、どれが一番うまくいくかを見つけ出すシステムやったんや。
最後に、S AIによるAI科学者プロジェクトのようなものがあるんやけど、これは将来のモデルのためのアルゴリズムの突破口を研究してるんや。これも完全に自律的で、人間の介入は全くないんやね。
これらの複数の異なる次元が、我々が今まで可能だと思ってた以上に、AIを急速にスケールアップすることを可能にするんやわ。
今日の動画は、Mammutが提供してくれてるんや。MammutAIは、最高のモデルをすべて1つの場所に集めて、1つの価格で提供してくれるんやね。Claude、Llama、GPT-4o、MrAw、Gemini Pro、さらにはGp01まで。これらのAIそれぞれに別々に支払う必要はなくて、Mammutに10ドル払えば、すべてを1つの場所に集めてくれるんや。
さらに、画像生成のMidjourney、Flux Pro、DALL-E、Stable Diffusionもあるんやで。これも全部10ドルでね。モデルは頻繁に更新されて、リリースされるとすぐに利用可能になるんや。最高のモデルにすべてアクセスできるMammutをぜひチェックしてみてな。m.ai、つまりM-A-M-M-O-U-T.AIやで。Mammutさん、ありがとうございます。
じゃあ、生成AIの話に移っていこか。私が博士課程にいた頃、その前やけど、アンディングから機械学習を学んで、それからデイ・サーからベイジアンの何かすごく複雑なものを学んだんやけど、私にはかなり複雑やったな。その多くは予測モデリングやったんやけど、それから君が解放した視覚的なものがあって、でも生成的なものが登場したのは、私が思うに最近の4年ぐらいやと思うんや。
これは私にとってはかなり違うものやね。何かを識別したり予測したりするんじゃなくて、何かを生成するんやから。だから、そこに至るまでの重要な突破口について説明してもらえへんかな。そして、なぜそれが違うのか、我々はそれを違うものとして考えるべきなのか、それとも連続体の一部なのか、そういったことについて。
彼が言うてるのは、何かを予測してるんじゃないってことやけど、実際にはそうなんやね。基本的に次のトークンを推測してるだけやから。本当に予測してるんや。でも、フェイ・リーの話を聞いてみよう。
これはとても興味深いわ。私の大学院時代でさえ、生成モデルはあったんやね。我々は生成を行いたかったんや。誰も覚えてへんけど、文字や数字でさえ、何かを生成しようとしてたんやで。ジェフ・ヒントンは生成に関する論文を出してたし、我々は生成の方法について考えてた。実際、確率分布の観点から考えれば、数学的に生成できるんやけど、我々が生成するものは誰も感心せんかったんやね。
だから、生成という概念は数学的に、理論的にはあったんやけど、何も機能せんかったんや。
ここでジャスティンの博士課程について少し話したいんやけど、ジャスティンは深層学習に夢中になったから私の研究室に来たって言うてたやろ? ジャスティンの博士課程全体が、ほとんどこの分野の軌跡を物語る小さな物語みたいなもんやったんやね。
彼は最初のプロジェクトをデータで始めたんや。私が強制的にやらせたんやけど、彼は好きじゃなかったみたいやね。
「そうやね、でも本当に役立つことをたくさん学びました。今になって言えるけど」
そうやろ? それで、ジャスティンを深層学習に移したんや。そこでの中心的な問題は、画像から言葉を生成することやったんやけど、実際にはそれ以前の段階があったんやね。
私が思うに、この軌跡には3つの明確な段階があったんや。最初の段階は実際に画像と言葉をマッチングすることやったんやね。我々は持ってて、どれくらい...
私の最初の論文、博士課程での最初の論文、そして人生で初めての学術論文は、SCPHsを使ったIM Retrialやったんや。
それから、ピクセルから言葉を生成する段階に移ったんやけど、ジャスティンとアンドレがそれに取り組んだんやね。でも、それはまだピクセルの世界から情報を取り出す、非常に損失の多い方法やったんや。
そして中盤、ジャスティンは非常に有名な研究をしたんやけど、それがリアルタイムで行われた最初の例やったんやね。
「そうそう、その話はこうなんや。2015年に『芸術的スタイルのニューラルアルゴリズム』っていう論文が出たんやけど、リアム・ガティスが主導してたんやね。その論文が出て、実際の写真をゴッホのスタイルに変換したものを見せてくれたんや。2024年の今では、こういうものを見慣れてるかもしれんけど、これは2015年の話やからね」
「その論文がある日突然arXivに現れて、私の頭を完全に吹き飛ばしたんや。2015年に私の頭の中に生成的な虫みたいなものが入り込んできて、何かをしたんやね。『なんてこった、このアルゴリズムを理解しなきゃ。これで遊ばなきゃ。自分の画像をゴッホ風にしなきゃ』って思ったんや」
「それで論文を読んで、長い週末をかけてそれを再実装して動かしたんや。実際にはとてもシンプルなアルゴリズムやったんやけどね。私の実装は300行くらいのLuaコードやったんや。当時はpre-Torchの時代やったから、Lua Torchを使ってたんやね」
「でも、とてもシンプルなアルゴリズムやったけど、遅かったんや。最適化ベースのものやったから、生成したい画像ごとに最適化ループを実行する必要があったんやね。勾配降下ループを画像ごとに実行しなきゃいけなかったんや。画像は美しかったけど、もっと速くしたかったんやね」
「そして、ジャスティンはそれをやり遂げたんや。実際、これが学術研究が産業界に影響を与えた最初の味わいやったと思うわ。当時、多くの人がこの芸術的スタイル変換を見てて、私や他の何人かが同時に、これを高速化する方法を思いついたんやけど、私のが大きな注目を集めたんやね」
「ジャスティンのことを誇りに思ってたけど、生成AIにつながるジャスティンの最後の研究がもう1つあるんや。博士課程の最後の研究やったんやけど、私はそれについて知ってたんや。なぜなら私が強制的にやらせてたからね。それは言語を入力して、完全な画像を出力するっていうものやったんや。これは生成的な研究の最初の1つやったんやね。GANを使ってたんやけど、当時はGANの扱いがとても難しかったんや」
「問題は、我々がまだ自然な言語を使う準備ができてなかったことやね。だからジャスティン、聞いてるか? 彼はシーングラフに取り組んでたんやけど、グラフ言語構造で入力する必要があったんや。羊、草、空っていうのをグラフ的な方法で入力しなきゃいけなかったんやね。それは文字通り我々の写真の1つやったんや」
「それで彼ともう1人の非常に優秀な修士課程の学生のグリムが、それをGANで動かすことに成功したんや。だから、データからマッチング、スタイル転送、そして生成的な画像へと、連続的に起こってきたのが分かるやろ? 我々にとってはすでに連続的に起こってきたことやけど、世界にとってはより急激な結果やったんやね」
これは興味深いわ。今日、多くの人がAGIやASIについて同じことを言うてるんやね。突然の1点ではなく、徐々に段階的に起こるって。だから、私じゃなくて、フェイやジャスティンのように業界に長くいる人たちが、10年、何十年にもわたってこの段階的な連続性を見てきたっていうのは興味深いわ。
次に彼らは、AIが3D、つまり自然界を理解することの重要性について話し始めるんやけど、それがどれだけ大きな可能性を解き放つかについて語るんや。見ていこか。
「長い間、フェイ、あなたの研究や方向性の多くが空間的なものやピクセル、知能に向けられてきたように思えるんやけど、今はWorld Labsをやってて、空間知能に関するものやね。これは長い旅の一部やったんかな? なぜ今やることにしたの? 技術的な解放なのか、個人的な解放なのか、AIの研究のそのような世界からWorld Labsへの移行について少し話してもらえるかな?」
「私にとっては、個人的にも知的にも両方やね。私の知的な旅の全体は、本当に北極星を探す情熱やったんやけど、同時にそれらの北極星が我々の分野の発展にとって非常に重要やと信じてきたんや。最初、大学院を卒業した後、私の北極星は画像の物語を語ることやと思ってたんや。なぜなら、それが視覚的知能の非常に重要な部分やと思ってたからね。AIやAGIの一部として」
「でもジャスティンとアンドレがそれをやってのけたとき、『なんてこった、それは私の人生の夢やったのに、次は何をすればいいんや?』って思ったんや。私が100年かかると思ってたことが、もっと早く実現しちゃったんやね」
「でも、視覚的知能は私の情熱なんや。なぜなら、すべての知的な存在、人間やロボットや他の形態のものにとって、世界を見る方法を知ること、それについて推論すること、その中で相互作用すること、ナビゲーションしたり操作したり物を作ったりすること、さらには文明を築くことさえできる、視覚的・空間的知能は非常に基本的なものやと信じてるからや。言語と同じくらい基本的で、おそらくもっと古くて、ある意味ではもっと基本的やと思うんや」
「だから、World Labsの北極星が空間知能を解き放つことやというのは、私にとってはとても自然なことなんや」
ビデオの最初に言うたことを思い出してほしいんやけど、これはヤン・ルカンが言うてたことと似てるんやね。言語モデルだけでは世界モデルを作るのに十分じゃないって。フェイ・リーもそう思ってるみたいやけど、ヤン・ルカンほど断定的には言うてへんな。でも彼女が言うてるのは、AIが現実世界を解釈する能力は絶対に基本的なもんやってことや。続けて見ていこか。
「今がそれをやるべき瞬間やと思うんや。ジャスティンが言うてたように、計算能力があるし、データについてもイメージネットの時代よりずっと深く理解できてる。そしてアルゴリズムの進歩もあって、World Labsの共同創業者のベン・ミレンホールやクリストフ・ラーなんかは神経放射場の最先端におるしな。我々は今、賭けをして集中し、それを解き放つのにちょうどいい瞬間にいるんやと思うわ」
「聞いてる人のために明確にしときたいんやけど、あなたはこの会社World Labsを立ち上げて、空間知能っていうのが一般的に解決しようとしてる問題やと言うてるわけやな。それが何を意味するのか、簡潔に説明してもらえるかな?」
「そうやな、空間知能っていうのは、機械が3D空間と時間の中で知覚し、推論し、行動する能力のことを言うんや。物体や出来事が3D空間と時間の中でどのように位置付けられてるか、世界での相互作用がどのようにそれらの3D、4Dの位置に影響するかを理解することやね。知覚し、推論し、生成し、相互作用する、本当に機械をメインフレームやデータセンターから出して、世界に放り出し、その豊かさを持つ3D、4Dの世界を理解することなんや」
3Dの現実世界のデータを大量に持ってて、空間知能のトレーニングに使える会社といえば、もちろんテスラやな。テスラ車のカメラを通じて取り込まれた何百万マイルもの現実世界のデータを持ってて、それを大きなデータベースに入れて、常にトレーニングしてるんや。でも、そのデータでできることは自動運転だけやないんやで。もちろん、自動運転自体がすごい偉業やけどな。そのデータは、オプティマスっていう彼らのロボットのトレーニングにも使えるんや。そしたらオプティマスロボットは、現実世界でどう動けばいいか、現実世界をどう解釈すればいいか、起こってる出来事をどう理解すればいいか、まさにジャスティンが言うてることを知ることができるんやね。続けて見ていこか。
「明確にしときたいんやけど、物理的な世界のことを話してるんか? それとも世界の抽象的な概念のことを話してるんか?」
「両方やと思うわ。長期的なビジョンとしては両方を含んでるんや。世界を生成する場合でも、コンテンツを生成する場合でも、それを3Dで位置付けて行うことには多くの利点があるんやね。あるいは現実世界を認識する場合でも、3Dの理解を現実世界に適用できることも、その一部やと思うわ」
彼が言うてるのは、空間知能を使って現実世界を解釈し理解できるだけやなくて、実際に世界を生成することもできるってことやね。そうなると、このチャンネルでよく話してるシミュレーション理論なんかにも繋がってくるわ。これは私にとってはとても魅力的なテーマやね。
それから、Soraのことを考えてみよう。Soraは信じられないほど現実的に見えるビデオを生成できたんや。そのビデオの中の物理法則も現実的に見えたし、それには空間知能を使ってへんかったんやね。つまり、今この「現実世界の知能」を解き放とうとしてる複数の流れが同時に起こってるってことやな。
「みんなに聞いてほしいんやけど、他の2人の共同創業者、ベン・ホールとクリストフ・フラーは、この分野の絶対的な伝説やからね。あなたたちと同じレベルの4人が出てきて、今この会社を始めることにしたんや。だから、なぜ今がその正しいタイミングなのか、もう少し深く掘り下げてみたいんやけど」
「そうやな、これも私にとっては長い進化の一部やけど、本当に博士課程の後、独立した研究者として自分を発展させたいと思ってた頃、AIやコンピュータービジョンの大きな問題は何やろうって考えてたんや。そのとき出した結論は、前の10年間はほとんど既存のデータを理解することに費やされてきたけど、次の10年は新しいデータを理解することになるやろうってことやったんやね」
「そのことについて考えると、既に存在するデータっていうのは、ウェブ上にすでにあるすべての画像や動画のことを指すんやけど、次の10年は新しいデータを理解することになるんや。つまり、人々はスマートフォンを持ってて、スマートフォンにはカメラがあって、そのカメラには新しいセンサーがあって、そのカメラは3D世界に位置付けられてるってことやね。もはやインターネットからピクセルの袋をもらって、それについて何も知らずに猫か犬かを言うだけじゃないんや。画像を物理的世界への普遍的なセンサーとして扱い、それを使って世界の3Dや4Dの構造を理解する方法を考えたいんや。物理的な空間でも生成的な空間でもね」
「だから博士課程の後、3Dコンピュータービジョンに大きく方向転換したんや。当時の同僚のアフィアと一緒に、物体の3D形状を予測することに取り組んでな。その後、2Dを通じて3D構造を学習するというアイデアに夢中になったんや。データについてよく話すけど、3Dデータそのものを手に入れるのは難しいんやね。でも、数学的にとても強い関連性があるんや。我々の2D画像は3Dの投影やからね。ここには利用できる数学的構造がたくさんあるんや。だから、たくさんの2Dデータがあっても、大量の2D観測から3D構造を復元する方法を見つけ出すために、多くの人が素晴らしい仕事をしてきたんやね」
「おお、それは面白いな。私はあんまり考えたことがなかったわ」
そうやな、我々は大量の2Dデータを収集してるんや。2Dっていうのは、基本的に2Dの画面に投影する必要があるからやね。だから、写真を撮ったり動画を撮ったりするカメラはすべて、3D環境の2D表現なんや。
すぐに思い浮かぶのは、Apple Vision Proやな。それに、今はiPhone 16を持ってて、これは空間ビデオを撮れるんや。私の理解が正しければ、これは3Dやね。突然、この大量の3Dビデオが将来のモデルのトレーニングに使えるようになるんや。これについて考えるのは面白いな。まだあんまり深く考えてへんから、今はこれくらいにしとくわ。でも、コメント欄で君らの意見を聞かせてほしいな。
「2020年に、ブレイクスルーの瞬間について聞いたけど、当時の我々の共同創業者のベン・ミレンホールが『Nerf』っていう論文で本当に大きなブレイクスルーを起こしたんや。神経放射場のことやね。これは、2D観測から3D構造を復元する非常にシンプルで明確な方法やった。これが3Dコンピュータービジョンの全領域に火をつけたんやね」
「ここにはもう1つ、この分野の外の人々があんまり理解してへん側面があるんやけど、それは大規模言語モデルが台頭し始めた時期でもあったってことやね。実は、言語モデリングに関する多くのことは、私の博士課程の時代にも学術界で開発されてたんや。2014年にアンドレ・カーパシーと言語モデリングに関する小さな仕事をしたことを覚えてるわ。LSTMやね。LSTMのRNNやブルースを覚えてる? これはトランスフォーマー以前の話やけどな」
「でも、ある時点で、GPT-2の頃かな、そういう種類のモデルは学術界ではもうできんようになってたんや。リソースがかかりすぎたからね。でも面白いことに、ベンが考え出したNerfのアプローチは、1台のGPUで1時間か2時間でトレーニングできたんやね」
「当時、ここで起こった動きがあって、多くの学術研究者がこれらの問題に集中するようになったんや。なぜかっていうと、解決すべき根本的なアルゴリズムの問題があって、しかも大量の計算能力がなくてもかなりのことができたからやね。1台のGPUでも最先端の結果が出せたんや。こういう状況があったから、学術界の多くの研究者がこの分野を進歩させる根本的なアルゴリズムの方法について考え始めたんやね」
「それから私はア・モアと話をして、実は彼女はとても説得力があって...」
「彼女は本当に説得力があるよね」
「そうそう、でもな...知ってるやろ? 自分の指導教官から独立した研究の道筋を見つけようとしてたって話をしたけど、結局我々は...ああ、いや...同じような結論に収束してしまったんやね」
「まあ、私の立場から言えば、一番頭の良い人と話したいと思うんや。そしたらダストに電話するしかないよな」
「技術的な問題や技術的な話で非常に興味深いものがあるんやけど、ピクセルの話なんや。言語の分野で働いてる人の多くは気づいてへんと思うんやけど、コンピュータービジョンの分野で、ピクセルに取り組んでる我々には、3D再構成っていう研究分野の長い歴史があるんやね。これは70年代にまで遡るんやけど、写真を撮って...人間には2つの目があるやろ? だから一般的には、ステレオ写真から始まって、それから幾何学的な三角測量をして、3Dの形を作り出すんや」
「これは今でも本当に難しい問題で、根本的には解決されてへんのや。対応付けの問題とかあるしな。それで、3Dについて考えるこの古い分野がずっと続いてきて、本当に良い進歩を遂げてきたんやけど、Nerfが起こったとき、生成的な方法の文脈の中で、拡散モデルの文脈の中で突然起こったとき、再構成と生成が本当に融合し始めたんや」
「本当に短期間のうちに、コンピュータービジョンの分野では再構成と生成について語るのが難しくなってきたんやね。何かを見たり、何かを想像したりしたとき、両方が収束して生成に向かうような瞬間が突然訪れたんや。これは私にとって、コンピュータービジョンにとって本当に重要な瞬間やと思うんやけど、ほとんどの人は見逃してるんやね。言語モデルほど話題にならへんからな」
つまり、ピクセル空間では再構成があって、それは現実の場面を再構成することやね。そして、その場面が見えへん場合は生成的な技術を使うってことやな。これらの技術はかなり似てるんやね。
Nerfの例はたくさん見てきたわ。ボウェル・シドゥがNerfの例を頻繁に投稿してるんやけど、それらは見てて本当に信じられへんくらいすごいんや。ここに2D画像があって、それが3Dに変換されてるんやね。これは、アップルの写真アプリで使われてる技術の多くと同じもんや。Apple TVをスクロールしてて、映画のポスターが3Dで少し回転するのを見たことあるやろ? これはすべて同じ技術なんや。
さて、これから言語モデルと空間モデルの違いについて話すんやけど、聞いてみよう。
「この会話全体を通して、言語のことやピクセルのことを話してきたけど、空間知能やあなたたちが取り組んでることと、今とても人気のある言語アプローチとの違いについて話すいい機会かもしれへんな。補完的なもんなんか? それとも直交してるんか?」
「そうやな、補完的やと思うわ。ここであんまり誘導的にならんようにしたいんやけど...まあ、対比させてみようか。みんな、OpenAIやGPT、マルチモーダルモデルのことは知ってるし、あなたが話してる多くのことは、ピクセルと言語を持ってて、これは空間推論で我々が望むことをある程度やってくれるんちゃうんか?って思うかもしれへんな」
「そうやな、それをするためには、これらのシステムがどう動いてるか、内部をちょっと開けてみる必要があるんや。言語モデルや、今見てるマルチモーダルな言語モデルは、内部的には1次元の表現を使ってるんやね。コンテキスト長とか、トランスフォーマーとか、シーケンスとか、注意機構とか言うけど、基本的に世界の表現は1次元なんや」
「これらは本質的に、1次元のトークンの列に対して動作するんやね。これは言語を扱う時には非常に自然な表現方法や。書かれたテキストは離散的な文字の1次元の列やからな。この基本的な表現方法が、言語モデルや今見てるマルチモーダルな言語モデルにつながったんや」
「結局のところ、他のモダリティをこの1次元のトークン列という基本的な表現に無理やり押し込めることになるんやね。でも、空間知能に移ると、逆の方向に行くことになるんや。つまり、世界の3次元的な性質を表現の中心に据えるべきやって言うてるんやね」
「アルゴリズムの観点から見ると、これによってデータを処理する新しい方法が開かれて、異なる種類の出力を得ることができるようになるんや。そして、全く異なる問題に取り組むこともできるようになる」
「大まかに見ると、外を見て『ああ、マルチモーダルな言語モデルも画像を見れるやん』って言うかもしれへん。確かにそうなんやけど、彼らのアプローチの中心には、我々が持ってるような根本的な3D表現がないんやと思うわ」
「それは本当に興味深いな。今この動画を見ながら学んでるわ」
そうやな、大規模言語モデルに複数のモダリティを追加してるときに、彼が言うてるように、3次元を1次元の空間に押し込めてるんやね。今彼がそう説明してるの聞いてると、それってすごく非効率的に思えてくるわ。
でも、逆のアプローチを取って、3Dから始めて、それをモデルが世界を理解する基本的な方法にしたら、1Dに変換して言語を使うのは簡単かもしれへんな。続けて見ていこか。
「ジャスティンに完全に同意やわ。1Dと根本的に3Dの表現について話すことは、最も重要な違いの1つやと思うわ。もう1つ、ちょっと哲学的やけど、私にとっては本当に重要なことがあるんや。言語は根本的に純粋に生成されたシグナルなんやね。外に出ても、空に言葉が書かれてるわけやないやろ」
「これも、ヤン・ルカンが大規模言語モデルとその限界について説明してるのとよく似てるな。同じページにいるみたいやけど、問題を解決するアプローチは違うみたいやね」
「どんなデータを与えても、十分な一般化可能性があれば、基本的に同じデータを吐き出せるんや。それが言語から言語への変換やね。でも3Dの世界はそうやない。そこには物理法則に従う3Dの世界があって、材料やその他多くのものによって独自の構造を持ってるんや」
「その情報を根本的に引き出して、表現し、生成できるようにすることは、本質的にかなり異なる問題なんやね。言語や言語モデルから似たようなアイデアや役立つアイデアを借りることはあるやろうけど、これは根本的に、哲学的に私にとっては異なる問題なんや」
「そうか、言語は1Dで、おそらく物理的な世界の悪い表現やと。なぜなら、人間によって生成されてて、おそらく情報が欠落してるからやね。生成AIモデルの全く別のモダリティがあって、それはピクセルや。これらは2D画像と2Dビデオやね。ビデオを見ると3Dのものが見えるって言えるかもしれへん。カメラをパンしたりできるからね。じゃあ、空間知能は2Dビデオとどう違うんやろ?」
「これについて考えるとき、2つのことを切り離すと役立つんや。1つは基本的な表現で、もう1つはユーザーが直面する使いやすさみたいなもんやね。ここで時々混乱することがあるんやけど、根本的に我々は2Dで見てるんや。我々の網膜は体の中の2D構造で、2つあるやろ? だから根本的に、我々の視覚システムは2D画像を知覚してるんやね」
「でも問題は、使う表現によって、より自然な使いやすさや、あまり自然でない使いやすさがあり得るってことなんや。結局のところ、2D画像や2Dビデオを見ることになるかもしれへんけど、脳はそれを3D世界の投影として知覚してるんやね。だから、物体を動かしたり、カメラを動かしたりしたいと思うかもしれへん」
「原則的には、純粋に2Dの表現やモデルでこれらのことができるかもしれへんけど、それはモデルに求めてる問題にフィットしてへんのやね。動的な3D世界の2D投影をモデル化することは、おそらくモデル化できるやろうけど、モデルの中心に3D表現を置くことで、モデルが扱ってる表現の種類と、そのモデルにやってほしいタスクの種類の間により良いフィットが生まれるんや」
「だから我々の賭けは、モデルの内部にもう少し3D表現を組み込むことで、ユーザーにとってより良い使いやすさが可能になるんやないかってことやね」
「これは私の北極星にも戻るんやけど、なぜ空間知能なのか、なぜ平面的なピクセル知能じゃないのかっていうと、私は知能の弧は、ジャスティンが言うような使いやすさに向かうべきやと思うからなんや。知能の弧を見てみると、進化を見てみるとわかるんやけど、最終的には動物や人間、特に知的な動物としての人間が、世界中を動き回り、それと相互作用し、文明を作り、生命を作り、サンドイッチを作るなど、この3D世界で何かをすることを可能にするんやね」
「そしてそれを、本来3Dのテクノロジーに変換することは、可能なアプリケーションの洪水を引き起こすために根本的に重要なんや。たとえそのうちのいくつかは2Dで提供されるように見えても、本質的には3Dなんやね」
そうやな、ここでまたApple Vision ProとOculus、そしてまだ来てへんARVR革命のことを考えてしまうわ。突然、3D世界についてのこの全ての情報を捉えることができるようになって、それを空間知能や空間認識に基づいたモデルのトレーニングに使えるんやね。これについて考えるのは本当に面白いわ。私はこれらのトピックについてあんまり詳しくないけど、間違いなく魅力的やと思うわ。
「これは本当に微妙で、信じられないほど重要な点やと思うから、もう少し掘り下げてみたいんや。それを行う1つの方法は、ユースケースについて話すことやと思うわ。まず基本的なところを確認しとこか。我々は空間知能を行える技術、モデルと呼んでもいいかもしれへんけど、それを生成する話をしてるんやね。じゃあ、抽象的にはそれはどんな感じになるんやろか? もう少し具体的に、これにどんな潜在的なユースケースが適用できるんやろか?」
「そうやな、我々が想像してる空間的に知的なモデルが時間とともにできるようになると思うことがいくつかあるんやけど、その中で私が本当にわくわくしてるのは世界生成なんやね。我々はみんな、テキストから画像を生成するものとか、テキストからビデオを生成するものに慣れてきてて、画像を入力したり、ビデオを入力したりすると、素晴らしい画像や素晴らしい2秒のクリップが出てくるのを見始めてるよね」
「でも、これをレベルアップさせて、3Dの世界を手に入れることができると想像してみてほしいんや。将来、空間知能が我々の助けになる1つのことは、これらの体験を3Dにレベルアップすることやと思うんや。単に画像やクリップを出力するだけじゃなくて、完全にシミュレートされた、でも生き生きとしてインタラクティブな3D世界を手に入れられるようになるんやね」
「ほんまやな、今はもうシミュレーション理論の領域に入ってきたわ。そして、またApple Vision Proや他のARVR技術のことを考えてしまうな。それに、世界生成器としてのSoraのことも思い出すわ。以前も世界生成器について話したことがあるし、数週間前に話したAI Doomプロジェクトのことも思い出すわ。そこでは、拡散モデルが1990年代のゲーム『Doom』の世界をフレームごとに予測できたんやね。しかも、ゲームエンジンも、事前に定義されたコードも、何もなしでやってのけたんや。これが彼の説明してることなんやな」
「これはビデオゲームを変えられるかもしれへんし、映画やテレビなどのすべてのコンテンツを変えられる可能性があるわ。でも、それ以上のことを考えてみてほしいんや。これは我々が現実を見る方法を完全に変えてしまうかもしれへんのや」
「ゲームのためにかもしれへんし、バーチャル写真のためかもしれへん...名前を挙げればきりがないわ。これが実現できたら、百万通りの応用があると思うわ」
「教育のためにもな」
「そうやな、教育のためにも使えるやろうな。私が思うのは、ある意味で、これは新しい形態のメディアを可能にするってことやね。だって、我々はすでにバーチャルでインタラクティブな世界を作る能力を持ってるけど、それには何億ドルもの費用と膨大な開発時間がかかるんや。結果として、人々がこの技術的能力を活用する場所は、主にビデオゲームになってるんやね」
「なぜかっていうと、我々は社会として、驚くほど詳細なバーチャルでインタラクティブな世界を作り出して、素晴らしい体験を提供する能力を持ってるけど、それには膨大な労力がかかるから、今の形態でこの技術を経済的に実行可能な唯一の用途は、何百万人もの人々に70ドルで売れるゲームを作ることなんやね。投資を回収するためにな」
「もし我々が、同じようなバーチャルでインタラクティブで生き生きとした3D世界を作り出す能力を持ってたら、他の多くのアプリケーションが見えてくるやろうな。なぜなら、そのようなコンテンツを作るコストを下げることができれば、人々はそれを他のことにも使い始めるからや」
「例えば、何億ドルもかけて作られたAAAビデオゲームと同じくらい良くて、詳細で、インタラクティブな、パーソナライズされた3D体験を持てたらどうやろう? でも、それが特定のニッチなことに合わせられてて、そのパーティキュラーなものを欲しがる人が数人しかいないかもしれへんようなものやとしたら? これは特定の製品や特定のロードマップじゃないけど、これは空間知能が可能にする新しい種類のメディアのビジョンやと思うんや」
「そうやな、完全に同意やわ。それは信じられないほどすごそうやな。ただ世界を描写して、それを探索したいだけなんや。ビデオゲームである必要はないかもしれへんし、そうかもしれへん。でも、ただ違う世界を描写して、その中で生きるのがどんな感じなのかを見てみたいだけなんや。これは本当にクールで未来的やわ。もっと考えてみたいし、それを体験してみたいわ」
「さて、この最後のセクションでは、これらすべてがARやVRにどう適用されるかについて話すんや。この動画で私がたくさん話してきたことやからな。彼らがそれについて何を言うのか聞くのが楽しみやわ」
「ジャスティンが話してた用例は、任意の数のユースケースのためのバーチャル世界の生成やったけど、今あなたが示唆してるのは、もっと拡張現実に近いものやろ?」
「そうやな。ちょうどWorld Labsが設立された頃に、アップルがVision Proをリリースしたんや。彼らは『空間コンピューティング』って言葉を使ってた。まるで我々の...でも我々は空間知能やからな」
「空間コンピューティングには空間知能が必要やってことやな」
「その通りや。どんなハードウェアの形態になるかはわからへん。ゴーグルかもしれへんし、メガネかもしれへんし、コンタクトレンズかもしれへん。でも、本当の現実世界とその上で何ができるかの間のインターフェースになるんや。訓練を受けてへんメカニックでも車の一部を修理する能力を助けたり、強化したりするかもしれへんし、エンターテイメントのためにポケモンGOプラスプラスみたいなものになるかもしれへん。突然、この技術が基本的にAR、VR、MRのオペレーティングシステムになるんやね」
「これは確かにコンピューティング全般を考える新しい方法やな。大規模言語モデルが良くなるにつれて、それらが未来のオペレーティングシステムになりつつあるように見えるけど、それ以上に、空間知能と空間コンピューティングが3D世界の未来のオペレーティングシステムになるかもしれへんのや。考えることがたくさんあって、本当にクールやわ。みんなの考えをコメント欄に書いてほしいな。読みたいし、君らが何を考えてるか知りたいわ」
「ARデバイスに何が必要なんやろうか? これは常にオンで、あなたと一緒にいて、世界を見てるものやからな。だから、あなたが見てるものを理解する必要があるんやね。そして、日常生活のタスクを手伝ってくれるかもしれへん」
「でも、私がすごくワクワクしてるのは、バーチャルと物理的なものの融合なんや。これは、リアルタイムで完璧な3Dであなたの周りのものを理解する能力があれば、本当に重要になってくるんやね。実際、現実世界の大部分を不要にし始めるんや」
「今、我々は皆、異なる用途のために何個の異なるサイズの画面を持ってるか考えてみてほしいわ。多すぎるよな? 電話があって、iPadがあって、コンピューターのモニターがあって、テレビがあって、腕時計がある...これらは基本的に、異なる文脈や異なる位置で情報を提示する必要があるから、異なるサイズの画面なんやね」
「でも、バーチャルコンテンツを物理的な世界とシームレスに融合させる能力があれば、これらすべての必要性がなくなるんや。理想的には、その瞬間に知る必要のある情報を、正しい方法で情報を提供するメカニズムとシームレスに融合させるだけでええんやね」
「これについて、以前の動画で話したばかりやわ。AIのための完璧なハードウェアの実装は、基本的に全く身に着ける必要のないものなんや。それはただ周りの世界を理解し、見て、聞いて、3Dの側面を感知し、そしてもちろんそれに投影できるものやね。それがどんな形になるかはわからへん。マーク・ザッカーバーグはメガネやと思ってるし、アップルとティム・クックはゴーグルやと思ってる。どうなるか見てみよう」
「デジタルやバーチャルな世界と3Dの物理的な世界を融合させる能力の別の大きな用例は、物理的な世界で何かをするエージェントのためのものやね。人間がこのMRデバイスを使って何かをする場合、例えば私は車の修理の仕方を知らへんけど、このゴーグルやメガネを着けたら突然ガイドされて修理できるようになるかもしれへん」
「でも、他のタイプのエージェント、つまりロボットもあるんや。人型ロボットだけじゃなくて、あらゆる種類のロボットのことやね。彼らのインターフェースは、定義上3Dの世界やけど、彼らの計算、つまり脳は定義上デジタルな世界なんや。だから、ロボットの脳から現実世界の脳への学習から行動までを繋ぐものは、空間知能でなければならないんやね」
「今日はここまでや。このトピックについてもっと学ぶのが本当に楽しみやわ。ただ魅力的に思えるんや。知能へのもう1つのアプローチやね。この動画を楽しんでくれたなら、ぜひいいねとチャンネル登録をお願いします。次の動画でまた会いましょう」

この記事が気に入ったらサポートをしてみませんか?