人工培養された脳細胞によるゲームプレイの仕組み 〜自由エネルギー原理について〜
見出し画像

人工培養された脳細胞によるゲームプレイの仕組み 〜自由エネルギー原理について〜

masa_kazama

イントロ

実験室内で培養した人の「ミニ脳」にゲームをプレイさせることに成功、AIよりも速いわずか5分で習得」というニュースが話題になっています。
脳細胞をトレーの中で人工培養させて、その細胞に卓球ゲームの「Pong」をプレイさせたところ、たった5分で学習し、ラリーが続くようになったと報告されています。まるで、マトリックスの映画のようで、この技術を使った未来がワクワクすると同時にちょっと怖くもあります。一体、どんな技術を使って、脳細胞に卓球ゲームを学習させたのでしょうか。このニュースを取り上げている記事は多かったのですが、中身の仕組みについて解説している記事は多くありませんでした。そこで、このブログ記事では、ミニ脳にゲームを学習させた仕組みを自分の勉強がてらに、備忘録的にざっくりとまとめたいと思います。(そのため、自分の理解や記述が間違っている箇所があるかもしれません。もしありましたらお知らせください。)

トレー上の生きた脳細胞

動画:脳細胞が卓球ゲームをする様子

自由エネルギー原理

このニュースの元となる論文「In vitro neurons learn and exhibit sentience when embodied in a simulated game-world」を見てみると、ゲームの学習には、Free Energy Principle(自由エネルギー原理)なるものが背景にあることが主張されています。自由エネルギー原理とは、イギリスの認知神経科学の研究者であるカール・フリストンによって、脳の情報処理の統一理論として提唱されたものです。今回の論文にもカール・フリストンが著者として名を連ねています。(カール・フリストンは、fMRIなどで幅広く用いられているStatistical Parametric Mapping(SPM)という脳活動を解析する手法を提案したことでも知られ、ノーベル賞候補としても名前が上がっています。)

脳の情報処理の統一理論とは、どういうことでしょうか。自由エネルギー原理によると、私たちの「知覚」「行動」「学習」のどれもが、自由エネルギーを最小化するものとして、統一的に説明されます。今まで、それぞれの分野でさまざまな理論が研究されてきましたが、自由エネルギー原理では、統一的に1つの枠組みで説明できる可能性があり、注目を集めています。たとえば、統合失調症などの精神障害のメカニズムが、自由エネルギー原理に基づいて説明され、臨床研究のデータと適合することが報告されています。

自由エネルギー原理では、私たちは自由エネルギーを最小化するように知覚したり行動したりすると説明されています。これを別の表現で説明すると、私たちは常に世界を予測していて、驚きが少なくなるように行動しているというものです。世界が常に予測通りなら、自由エネルギーは低いし、世界が常に予測不可能なら、自由エネルギーは高い状態になります。

さて、この自由エネルギー原理がどのように脳細胞による卓球ゲームの学習と関連するのでしょうか?

脳細胞の学習方法

トレー内の脳細胞に、高密度の多電極アレイ(8mm^2の面積に26,000個の白金電極)を配置することで、細胞の電気信号の記録と刺激を行うことを可能にしています。多電極アレイの制御のシステムの低レイヤーは、処理レイテンシーが50μs以下となるように、C言語で書かれています。ゲームの設定などの高レイヤーは、Pythonで書かれています。

脳細胞と電極

上の図の真ん中の図は、多電極アレイの配置を示しています。上部(sensory area)では、ボール位置などの卓球ゲームの状態を電気刺激として細胞に入力しています。下部(motor regions)では、細胞の電気信号を元に、ゲーム内のバーを上下させます。

さて、細胞に、どのようなフィードバックを与えることで、ゲームを学習させるのでしょうか。
今回、細胞には、3種類の電気刺激が与えられます。

  1. 卓球ゲームのボール位置などの情報を表すSensoryという電気刺激

  2. ボールを打ち返すことに成功したときに与えられるPredictable(予測可能)な電気刺激

  3. ボールを返せなかったときに与えられるRandom(ランダム)な電気刺激

下の図は、ゲームプレイ中に細胞に与えられる電気信号を表したものです。下の図では、100秒間に4回プレイしています。最初のプレイでは、1回ボールを返すことに成功して、その次に失敗しています。図の上部のPhaseのところを見ると、成功したときに、Predictableな電気刺激が与えられて、失敗したところで、Randomな電気刺激が与えられています。(PredictableやRandom刺激の詳細が、論文内に記載がなかったのですが、おそらく、Predictableは、成功するたびに、特定の箇所に電気刺激を与えて、Randomは、毎回ランダムな箇所に電気刺激を与えていると思われます。)

プレイ中の電気刺激

そして、このフィードバックに基づいて、プレイさせた結果がこちらになります。

学習の様子: マウス(mCC)と人(hCC)の細胞

縦軸がラリーの長さを、横軸が試行回数を示しており、施行を重ねるごとにラリーが続くようになっていることが分かります。(また、マウス(mCC)より人間(hCC)の細胞のほうが、良い結果を残しています。これは、細胞数が同じでも、計算能力に違いがあることを示唆しています。人の細胞のほうがマウスより優れた情報処理能力を持っているということを示す初めての実証的な証拠ではないかと著者らは主張しています。)

なぜ、このようなフィードバックの電気信号で、細胞は学習することができたのでしょうか。それは、自由エネルギー原理に基づくと、生命は自由エネルギーを最小化するように活動しているため、正しくない行動の後に、ノイズの多い予測不可能なフィードバックを提示するだけで、正しい行動を形成できたと考えられ、今回の実験でそれが実証されたと著者らは主張しています。

論文内では、ほかにもフィードバックの仕方をいくつか試しています。失敗したときに何の刺激も与えないパターンと、常にSensoryの刺激だけで何のフィードバックもないパターンを試しています。

3種類のフィードバックパターン

その結果は、PredictableとRandomのフィードバックありのパターンが一番良く、何のフィードバックもないパターンでは学習がされないというものになりました。

各フィードバックパターンごとの結果
(左図の0-5は最初5分間のプレイ結果、6-20はその後のプレイ結果)

まとめ

「人工培養された脳細胞によるゲームプレイの仕組み」と題しまして、元となる論文内容について紹介しました。その裏側には、自由エネルギー原理というものがあり、細胞に対して「望ましくない」結果の後には予測できないランダムな感覚入力を与え、「望ましい」結果の後には予測可能な入力を与えると、細胞の行動をリアルタイムで大きく変化させることを実証しました。

また、今回の研究では、高密度の多電極アレイを利用して、細胞に対して低レイテンシーで電気刺激をやりとりできるDishBrainというシステムを開発しています。これは、"In Vitro"(試験管内)と"in silico"の融合するもので、コンピュータだけでは実現できない性能獲得や、知性の細胞的な起源の解明にも大きく貢献するものと期待でき、今後の研究が楽しみです。

Appendix

備忘録的に、自由エネルギー原理についての雑文です。

自由エネルギー原理と強化学習

機械学習や強化学習のコミュニティでは、あまり自由エネルギー原理の名前を聞くことはほとんど無いように思います。というのも自由エネルギー原理の研究が盛んである認知科学や精神医学の分野では、人の知覚や行動、学習に関する脳の情報処理の理解に重きがあり、一方で、強化学習のコミュニティでは、タスクを解ければアルゴリズムはどんなものでも良いという印象があります。
ただ、最近ではICLRなどの機械学習の学会でも、自由エネルギー原理と強化学習を融合させたような論文が出てきています。(ex. 「Reinforcement Learning through Active Inference」)

今回の論文でも、人工知能と自由エネルギーに関して次のような記述があります。「期待自由エネルギーは、不確実性(情報エントロピー)に対応している。このことは、不確実性を最小化する行動は、必然的に情報を求めるという意味で、自然な好奇心を持つことを意味する。これは、機械学習における人工的な好奇心や、ロボット工学における内発的動機と密接な関係がある」

自由エネルギー原理と意識

今回の研究の筆頭著者のBrett Kaganが、

この脳がPONGでパドルを動かす時、『彼』は自分自身をパドルだと思っていることでしょう。これはちょうど、映画『マトリックス』の仮想世界に生きているようなものです

と述べており、"意識"と自由エネルギー原理の関係が気になりました。"意識"に関しては、統合情報理論(Integrated Information Theory:IIT)という理論があり、Φ(Big phi)という定量的な指標で測定ができるようです。このΦと自由エネルギー原理が、何かしらで結びつくのでしょうか。

自由エネルギー原理の参考資料

自由エネルギーの概要を掴むのには、乾先生の「脳の大統一理論 自由エネルギー原理とはなにか」、「感情とはそもそも何なのか:現代科学で読み解く感情のしくみと障害」が分かりやすかったです。

自由エネルギーの数式に関しては、吉田先生の「よくわかるフリストンの自由エネルギー原理」のスライドと乾先生の「自由エネルギー原理入門: 知覚・行動・コミュニケーションの計算理論」が丁寧に記述されていて分かりやすかったです。また、Ryan Smithによる「A Step-by-Step Tutorial on Active Inference and its Application to Empirical Data」のチュートリアル論文と講義動画も分かりやすいです。ただ、チュートリアルはMatlabで書かれています。「pymdp」というPythonライブラリのチュートリアルでは、Google Colabで動くようになっています。

この記事が気に入ったら、サポートをしてみませんか?
気軽にクリエイターの支援と、記事のオススメができます!