より自然の脳に近づくマルチモーダルAI

福岡浩二

2024年7月19日 08:43

以前に、今の生成AIの基礎になっているLLM（大規模言語モデル）が、記憶領域で脳に似ている、という投稿をしました。

今はさらにその路線が進み、最近こんな研究が発表されています。

ようは、
脳の言語領域を観察すると、LLMと同じようなふるまいを見せた、
というはなしです。

脳の言語能力を担う場所はほぼ特定されています。詳細に興味ある方は下記のWiki情報を。

ここに、（被験者合意のもと）電極を付けて常にその電気信号の動きを測ります。

一方でLLMの基本動作を相当端折って書いておきます。

１．文章をトークンに分解
２．トークンを座標に変換
３．座標間の方向・距離でその関係性を確率的に計算

そして脳の電気信号でも構造として同じような計算を行ったところ、LLM同様にその距離と意味の近さが相関している（同じような動作をしている）ことが判明しました。

運動を担う部位でも、AIのように予測的なふるまいをしめしていることが、過去のマウス実験で分かりました。関連記事を。

ここまでくると、個々の部位は今のLLMっぽいですが、あとは脳の難題である「バインディング問題」、ようはどのように個々の部位が統合されているのか？という問いに思いが寄ります。

今のLLMをつかった生成AIでも、同じように多様なデータ（言語・音声・動画など）をどのように統合するのかがホットトピックです。

いわゆる「マルチモーダル」です。

OpenAIやGoogleをはじめとして各社がしのぎを削ってますが、以前から基礎研究分野から目立つのがGoogleです。

この近年で注目しているのは、Flamingoというマルチモーダル型AIです。１つ解説記事を載せておきます。

流行りのショート動画の解説記事を生成して検索性を上げているそうです。（内部管理なので我々からは見えませんが）

そして、2024年のGoogle開発者イベントで発表されたのが、Google AI Geminiの次世代プロジェクト Astraです。紹介記事を載せておきます。

ぜひ紹介動画もご覧ください。

一言でいうと、物理世界を理解するAIです。

以前にもふれましたが、もはや言語モデルというより「世界モデル」と呼ぶべき段階にきていますね。

冒頭記事のように、脳を調べると最新のAIっぽいことが分かってきました。そして今は割り切って最新のAIで脳の研究に組み入れようという動きもちらほらと見えます。

まさに神経科学とコンピュータ科学のランデヴー状態ですね。

まずは今年中に発表されるGoogle Astraに神経を集中させたいと思います。

この記事が気に入ったらサポートをしてみませんか？