「ミニ脳が卓球ゲームをプレイ」について解説します【論文紹介】

2022年10月31日 19:39

とある神経科学の論文が大きな話題を呼んでいます。↓

【ミニ脳】培養した人間の脳細胞にゲームのプレイを学習させることに成功豪・英研究チームhttps://t.co/SOwoU3cuni

細胞の塊を、多数配置された微小電極の上で脳細胞として培養し、脳と機械が相互作用できるシステムを構築。通常のAIより早く、卓球ゲーム『PONG』の遊び方を把握した。 pic.twitter.com/Flp40lzoB1
— ライブドアニュース (@livedoornews) December 21, 2021

私自身は大学院を卒業してしまったため、もう研究にきちんと関わっている人間ではないのですが、神経細胞に日頃から触れ、工学的な手法を通じて知能や神経疾患の仕組みを解き明かすことに興味のあった人間のひとりです。

せっかくの機会ですから、話題になった今回の論文（以降、Pong論文）について、背景の解説と内容の考察を書いてみたいと思います。

論文の概要は？

論文の内容を一文でまとめると、次のようになります。

シャーレ + 電極基板上に培養した神経細胞集団の電気活動を計測し、神経活動に応じたフィードバック刺激を行うことにより、生体とコンピューターを組み合わせたゲーム（Pong）シミュレーション環境を構築した。

しかしこのままでは到底イメージが湧かないため、論文の内容に入っていく前に、Pong論文に登場した技術を次の3つの要素技術に分解し、背景を一つずつ見ていきます。

①神経細胞の培養 + ②電極基板による計測 + ③閉ループシステムの構築

①・②は、神経生理学で長らく行われてきた伝統的な手法の蓄積です。Pong論文の肝となる要素技術は③ですが、これはC言語とPythonで書かれた「リアルタイムに計測された信号に基づいて電気刺激の指令を送る」スクリプトです。①〜③を複合して、"DishBrain"という看板を立てています。

それでは、まずは要素技術 ①〜③の背景を順番に見ていきましょう。

Pong論文に登場した要素技術の解説

① 神経細胞の培養

ひとくちに「脳を研究する」といっても、さまざまな切り口があります。例えば、観察対象の空間的なスケール（脳全体、脳部位、細胞単位、分子レベル…）、や現象が発生する時間的なスケール（数ms〜数年）です。

神経現象の空間的・時間的スケール。出典: [Luan et al., 2020]

生体を対象とした実験では、in vivo [生体内で] とin vitro [試験管内で] という分類がよく使われますね。最近ではex vivo [組織単位で] やin silico [シミュレーション上で] もよく見ます。もちろん、それぞれに利点と欠点があります。in vivoの実験は動物個体で行われるため、飼育・実験の手間やコストがかかりますが、生体環境に忠実なデータが取得可能です。一方、in vitroの実験は人工的に調整されたシャーレ環境で行われるため、観察結果の一般化には注意が必要です。しかし、実験条件のコントロール（試薬濃度・物理構造 etc.）や細胞単位の小さな現象の観察には強力なツールです。

Pong論文は、in vitroの実験に相当します。では、シャーレ上でどのように「脳の実験」を行うのでしょうか？

筆者らの手法は、分散培養（dissociated culture）と呼ばれる手法に該当します。これは、ラット胎児などから採取した脳組織を、酵素を用いて細胞単位にばらした後、細胞が接着するようにコーティング処理を施したシャーレ底面に培養する手法です。細胞が継続して生存・成長するために必要な培養液を区画に満たし、数日に一回の頻度で培養液を交換します。1-2週間培養を続けると、細胞は自発的に神経突起を伸ばし、他の細胞と再び接続して、神経ネットワークが自己組織的に形成されます。

こうして形成された神経ネットワークは、生体脳が本来もっている構造（3次元の層構造など）をもたない、人工的に形成された2次元の神経回路です。ですから、厳密には「ミニ脳」ではありません。業界では「培養神経回路網」という呼び方をよく見かけます。

② 電極基板による神経活動計測

上に述べた方法で細胞を透明なシャーレ上に培養すれば、形成された神経回路を顕微鏡で観察することが可能です。

ここで、神経細胞の発する微弱な電気信号をキャッチできるような電極を培養底面に忍ばせれば、神経活動を直接測れるのでは？という発想が湧いてきます。こうして開発された技術が 微小電極アレイ (microelectrode array; MEA) です。MEAは、多数の微小電極をグリッド上に配置した基板であり、この上に神経細胞を培養することにより信号を計測できます。MEAの強みは、細胞を傷つけない（非侵襲）ことから「発達過程など、長期にわたって計測できること」、および「同時に多数の電極で信号が取れるため、神経回路全体の活動を俯瞰できること」です。

高密度電極アレイ（high-density microelectrode array; HD-MEA）の概要。
左: 数十mmほどの区画に細胞を接着培養。中央: 約2万本の微小電極を持つ計測領域。
右: 電子顕微鏡で見た神経細胞と電極の大小関係。出典: [Yuan et al., 2020]

では、実際に電極で取れる信号はどのようなものでしょうか？

神経細胞は他の細胞と同じく細胞膜をもち、細胞の内側と外側が隔てられています。イオン（電荷を帯びた分子）の行き来はイオンチャネルと呼ばれる通り道により制御されており、基本的には細胞の内側がマイナスに帯電しています。ほかの細胞から信号を受け取ると、細胞内の電位が上昇し、電位がある閾値いきちを超えると正の電荷を持ったイオンが細胞内に一気に流入します。こうして細胞の電位が短時間で上昇する一連の過程を、活動電位（スパイク / 発火）と呼びます。

MEAでは、細胞の近くにある電極で活動電位の信号が記録できます。MEAは1980年頃から伝統的に研究されている技術ですが、近年計測できる電極の数や密度 / 信号の精度が飛躍的に増加しており（高密度電極アレイ; high-density MEA）、今では一つの細胞の信号が複数の電極にまたがって観測でき、それを数百点以上にわたって同時計測できるほどに進化しています。

神経細胞から計測される信号（各色は同一の神経細胞に由来する信号）。
背景のグリッドは電極に対応する。出典: [Müller et al., 2015]

培養して1~2週間ほど経った神経回路網を多数の電極で計測すると、外からの刺激が何もなくても、自発的に発火し続けていることが確認できます。分散培養された神経回路網の自発活動は、多数の神経細胞が同期して発火するバースト（burst）と呼ばれるフェーズと、発火が鎮静するフェーズが交互に訪れる特徴的なパターンを示します。

中央: 縦軸に電極番号、横軸に活動電位が観測された時刻をとり、
発火活動を散布図で表したグラフ（ラスタープロット）。
上段: バーストの様子を拡大したもの。下段: 発火頻度の時間変化。出典: [Fong et al., 2015]

こうした自発活動やバーストの機能的意義については、生体脳（in vivo）で見られるθ波（3-8Hz）やγ波（30-70Hz）といった認知・記憶に関わる現象との関連も示唆され、今でも活発に議論がされています。また、リズムが発生する数学的な仕組みについては、細胞膜の電位変化を記述する微分方程式（e.g. Hodgkin-Huxley方程式）を出発点に、細胞集団の発火リズムをモデル化する非線形物理学や数値シミュレーションが活躍します。

$$
\frac{d\boldsymbol{X}}{dt} = F(\boldsymbol{X}), \quad \boldsymbol{X} = \begin{bmatrix} v \\ m \\ h \\ n \end{bmatrix}
$$

v: 細胞の膜電位 [mV], (m, h, n): イオンチャネルの開閉をモデル化する変数

③ 閉ループシステムの構築

MEA上では細胞の電気活動を測るだけでなく、電気刺激を印加して細胞の活動を「誘発する」ことも可能です。単に神経細胞をシャーレ上で培養するだけでは、外からの情報入力が何もない状態ですが、電気刺激を加えれば、シャーレ上の神経回路は外界と接続することが可能になります。MEAは多数の電極を持っていますから、刺激の空間的・時間的なパターンを自由にデザインすることができます。これにより、神経回路が外部の情報を処理する過程を、生体脳と比較してシンプルな培養系で再現できます。

ここで、「神経回路による情報処理」を具体的にイメージするために、昆虫や動物といった生き物において神経回路がどのように使われているか考えてみます。

まず、外界である環境の情報を取り入れる「知覚」という過程があります。これは、「環境 → 神経回路」と情報が流れる「入力系」です。例えば、「あそこに虫のようなものが飛んでいる」と思ったとすると、網膜に投射された光刺激が視覚野で処理されています。

環境の様子が把握できたら、次に身体を通じて環境に働きかける「運動」という過程があります。これは「神経回路 → 環境」と情報が流れる「出力系」です。「あそこに飛んでいるもの」が虫なのかどうか判断するために、もう一歩近づいてみることにします。すると、「近づいてみたら虫だった」「羽音が聴こえてきた」といった形で、視覚や聴覚をはじめとする感覚入力が変化します。運動は知覚を変容するのです。

このように、知覚と運動は相互に作用し、循環関係にあることがわかります。現象学や心の哲学では、こうした循環関係に認知の本質があるとする立場は「エナクティビズム（enactivism）」と呼ばれます。

さて、MEAに話を戻すと、あらかじめ決められた設計で電気刺激を印加すると、「知覚」という入力系単体のモデルになります（「学習」も含む）。これは開ループ系 open-loopに属します。

では、神経活動を何らかの「運動」に対応させ、運動に応じて入力する電気刺激のタイミングや位置を変化させると…、まさに入力系である知覚と出力系である運動が循環するモデルになることがわかるでしょう。これが、閉ループ系 closed-loopです。

こうして、シャーレ上に培養された神経回路に「身体」を与える（embody）ことができるのです！例えば、MEAの右側の領域にある細胞群が発火したらロボットを右折、左側が発火したら左折させる決まりをプログラムに書いて、ロボットが物体と衝突したら進路変更ができるように電気刺激を与える、といった設計が可能になります。

こうして神経回路の活動を特定の空間に埋め込む研究（neurorobotics）は、MEAでは2000年頃から既に行われているようです。Steve Potter博士らによる研究をYouTubeに見つけました。神経細胞の顕微鏡写真や、電気活動の波形も収録されており、とてもイメージが湧きやすいですね。

【補足】神経回路はどのように学習するか

神経回路は、刺激に応じて回路の構造や特性を持続的に変化させる可塑性（plasticity）をもつことが知られています。シナプスの可塑性（synaptic plasticity）は最もメジャーであり、ニューラルネットワーク・深層学習をはじめとするAIブームもあってご存知の方も多いです。

シナプスは細胞間の接合部であり、シナプスの結合強度（≒信号の伝達効率）が変化することが、記憶や学習を支える細胞レベルの基盤であると考えられています。なかでもヘブ則（Hebbian rule）は「同時に発火した細胞間の結合が強まる」という直観的な理論です。

ニューラルネットワーク・深層学習におけるシナプス重み更新の概念図。
**目的関数を最大化するように、シナプス重みが調整される。**
出典: [Richards et al., 2019]

どのような刺激がどのような可塑性を引き起こすかについて、in vivo/in vitroの両方で様々な研究が行われてきました。とはいえ、可塑性の形態は非常に多岐に渡り、その分子メカニズムも複雑なため、まだまだ分かっていないことがとても多い領域です。

Pong論文を読む

やっと本題ですが、ここまでの背景が理解できればすんなり読めます。
次の2段階のステップに分けて、整理しましょう。

1) embodiment（身体化）: MEA上の神経細胞をPongゲームに埋め込む
2) goal-directed behavior（目標志向行動）: hit回数を最大化する

Pongゲームの登場人物は次の二種類です。
①天井と左右の壁に反射するボール 座標(X, Y)
②ボールを跳ね返すパドル

x, y軸は論文中に明示されていなかったのですが、おそらくこの向きです。
「パドルを上下に」といった場合、これはx軸に対応します。

パドルの位置をy軸の起点とすると、ボールの座標$${Y=0}$$の瞬間に$${X}$$がパドルの範囲内に収まればhit、来ていなければmissです。hitであればパドルはボールを反射し、rally（ラリー）としてゲームは続行します。missであればボールの位置はランダムな初期値にリセットされます。

1) embodiment: 神経細胞をPongゲームに埋め込む

MEA上で観測される神経活動を、ボールの座標を知らせる感覚（sensory）、パドルを動かす運動（motor）の二種類に割り当てます。いくつかの予備実験を経て、次のようなレイアウトに落ち着いたようです。

100行×200列＝2万本のグリッド電極のうち、
1024点で同時計測ができるデバイス（MaxOne HD-MEA）を使用しています。
運動領域が二分割されているのは、刺激位置との相関によるバイアスを軽減するためです。
出典: [Kagan et al., 2022]

【運動領域（motor region）の詳細】
パドルを上へ動かす領域1↑ と下へ動かす領域2↓に分割され、領域1・2のスパイク数を10msごとに計上し、スパイク数が多い方へパドルを動かしています。なお、実際には培養の過程で電極領域の左右で活動の偏りが必然的に生まれます。例えば電極領域の右側に細胞が偏っているとすると、パドルは常に上方向↑に動いてしまうため、発火の合計値が20Hzになるように補正ファクターをかけているようです。

【感覚領域（sensory region）の詳細】
感覚領域には8つの刺激電極が設置されています。メインの実験では「刺激位置による情報表現 place-coding」と「発火率による情報表現 rate-coding」を組み合わせ、ボールのy座標に応じて発火率が4〜40Hzの範囲で変動し、x座標に応じて刺激位置を変更した、と書かれています。しかし、8つしかない刺激電極でどのようにx座標を表現したかについては不明瞭でした（この場合、x座標は8段階でしか表現できないが、ラスタープロットFig.4C を見ると8段階以上の表現がされているようにも見える）。

2) goal-directed behavior: hitの回数を最大化する

さて、Pongゲームにおける「ゴール」は、hit（パドルとボールの接触）の回数を最大化することにあります。これを一旦、「知能」の指標としましょう。例えば、AIがPongゲームをプレイする様子を見て「知能がある」と感じるとしたら、それはhitの回数が人間と同等か、それ以上だからでしょう。

ステップ1) では、MEA上の神経細胞をPongゲームに埋め込みました。しかしこのままでは、「hitの回数を最大化する」という人間が定めたゴールについて、培養された神経細胞は知る由がありません。では、「hitの回数を最大化してください」というゴールを神経細胞に教えるためにはどうしたら良いでしょうか？

その方法の一つは、報酬（reward）を与えることです。例えば、in vivoの実験であればラットが壁のボタンを押した際にチーズを与える、といった具合です。しかし、シャーレ上に培養された神経細胞集団には、生体脳のような「報酬系」がありません（チーズを与えても喜んでくれないのです！）。

ここで立ち上がってくるのが、「神経回路は普遍的にはどのような目的関数をもっているのか」という問いです。先ほど、学習には最大化の対象となる関数（目的関数）が必要だと述べました。シャーレ上に培養された神経回路に対しても成り立つ、普遍的な学習の法則はあるでしょうか？

筆者らが学習の理論として参照したのが自由エネルギー原理（free energy principle; FEP）です。

自由エネルギー原理は、簡単にいうと「生物の知覚や学習、行動は自由エネルギーと呼ばれるコスト関数を最小化するように決まり、その結果生物は外界に適応できる」という理論です。

理化学研究所プレスリリース『神経回路は潜在的な統計学者』より引用

自由エネルギーの名は、感覚入力の予測困難さを意味するサプライズの上限値が変分自由エネルギーと呼ばれることに由来する。脳を構成する神経細胞・シナプス結合・神経修飾物質は、感覚入力のサプライズを最小化させるように振る舞うことで学習・推論を行なっており、また生物の行動は将来に渡る入力の不確実性を最小化するように決定されるとしている。

[Isomura, 2018]より引用。太字は引用者によるもの。カッコ内は引用者により省略。

筆者らはこちらの理論に基づき、「望ましくない行動の後に予測できない刺激を提示すれば、予測しづらい状態に陥ることを避けるように神経回路が行動を選択するだろう」という前提を置きます。

Pongゲームであれば、missに対しては罰則として「予測できない刺激（unpredictable feedback）」を提示し、hitに対しては報酬として「予測できる刺激（predictable feedback）」を提示することで、「hit回数を最大化するように神経回路が適応するだろう」という仮説になります。この仮説が有効かについては後に検討します。

Pongシミュレーションにおけるclosed-loopシステムの概要。① STIMがメインの実験です。
パドルがボールを逃した際には罰則として予測できない刺激を、
ボールの阻止に成功した際には報酬として予測できる刺激を与えます。出典: [Kagan et al., 2022]

【予測できる刺激】感覚領域にある8つの刺激電極全てにおいて、電圧75mV・刺激頻度100Hzの電気刺激を100msにわたって印加

【予測できない刺激】電圧150mV・刺激頻度5Hzの電気刺激を4秒間にわたって、8つの刺激電極のうちランダムな位置をランダムな長さで印加

Pong論文の主張を検討する

ラリーの長さ

論文の中核は次のグラフです。各実験の種類（横軸）について、ラリーの平均長さ ※（縦軸）を前半5分・後半15分について箱ひげ図で比較しています。いったん、CTL（培養液のみを入れたサンプルでの対照実験）とMCC（マウス胎児大脳皮質）に注目してください。

横軸: 実験の種類（Group） / 縦軸: ラリーの平均長さ（Average Rally Length）

CTL: 培養液のみのControl（対照実験）
IS (in silico): パドルをランダムに動かしたシミュレーション Control
RST (rest): 細胞にボールの位置を知らせずにパドルを動作させたControl
MCC (mouse cortical cell): マウス胎児大脳皮質
HCC (human cortical cell): ヒトiPS由来の神経細胞

出典: [Kagan et al., 2022]

※ ラリーの平均長さについて
論文 p.6に "Experimental cultures of cortical cells showed a higher hit-miss ratio, which we defined as the average rally length" と書いてありますので、hit / missの割合だと考えられますが、rally lengthという表現だと「hitの連続回数の平均値」にも聞こえます。

確かに有意差は出ていますが、効果量の低さ（論文ではTable S1）にも注意する必要があります。「Pongゲームを学習した」と言い切るには、ラリーの長さが短いです（学習後も半分程度がmissです）。

パフォーマンスの精度は強化学習（AI）によるPongの学習と比べて極めて低く、前半5分と後半15分で有意差があったことを根拠に「最速5分で学習、AIより高速」と主張するのは、パフォーマンスに関する言及がない点でややミスリーディングであると感じます。

加えて、「ヒトiPS由来の神経細胞（HCC）」と「マウス胎児の神経細胞（MCC）」を比較してHCCのパフォーマンスが高いという主張があるのですが、これをもって「人間の方が知能が高い」と結論づけることはできません。マウス胎児の脳組織をバラして使う初代培養細胞と、iPS細胞では発火特性がそもそも大きく異なるため、他の変数を揃えてヒト>マウスという関係が成立するかを検証する必要があります。

学習は関与したか？に対する個人的な意見

この論文によって「MEA上に細胞が存在することによって、フィードバック刺激により何かしらの変化が起きている」可能性はあるのですが、それが「シナプス可塑性などが関与する学習のメカニズム」によるものなのか、学習に対して本質的ではない他の現象が関与しているのかについては、言い切ることができないと思います。

したがって、論文のタイトルにある “sentient”（感覚/意識がある）は誇張的です。ゲームパフォーマンスがわずかに向上したこと単体では、「神経細胞が感覚を持ち始めた」と主張できる根拠にはならないからです。

他にもエース（サーブを返せないこと）や3回以上のラリーの割合といったゲームパフォーマンスに関する分析が多いものの、「シナプスに実際に変化が起きているか」「目的関数の存在を仮定するならば、ゲーム進行に伴って目的関数が低下しているか」等々の知能のメカニズムに迫る問題には、今回の論文ではアプローチされていないという印象を持ちました。

FEPの運動に関する理論である能動的推論のスキーマが書かれています。
出典: [Kagan et al., 2022]

また、自由エネルギー原理に関しては、論文中で与えられた「予測できない刺激」が実際にFEPに照らして妥当なフィードバックといえるのかなど、FEPの運動理論である能動的推論（active inference）に根ざした議論が今後望まれます。

まとめ

今回は「培養したミニ脳がゲームPongを学習」について論文紹介をしました。非常にアイデアが刺激的で面白い研究である一方、実際に学習が関与したかどうかについては慎重な検討が必要であるという印象を持ちました。とはいえ、こうして神経科学の研究が広く認知され、今後も広まっていくことはとても楽しみでもあります。これをきっかけに、新しく神経科学に興味をお持ちになった方がいれば嬉しいです。

参考文献

本記事で使用した画像は、すべてOpen Access論文から引用し、Creative Commons licenseに従うことを確認しています。

DeMarse, Thomas B., et al. "The neurally controlled animat: biological brains acting with simulated bodies." Autonomous robots 11.3 (2001): 305-310.
Fong, Ming-fai, et al. "Upward synaptic scaling is dependent on neurotransmission rather than spiking." Nature communications 6.1 (2015): 1-11.
Kagan, Brett J., et al. "In vitro neurons learn and exhibit sentience when embodied in a simulated game-world." Neuron (2022).
Luan, Lan, et al. "Recent advances in electrical neural interface engineering: minimal invasiveness, longevity, and scalability." Neuron 108.2 (2020): 302-321.
Müller, Jan, et al. "High-resolution CMOS MEA platform to study neurons at subcellular, cellular, and network levels." Lab on a Chip 15.13 (2015): 2767-2780.
Richards, Blake A., et al. "A deep learning framework for neuroscience." Nature neuroscience 22.11 (2019): 1761-1770.
磯村拓哉. "自由エネルギー原理の解説: 知覚・行動・他者の思考の推論." 日本神経回路学会誌 25.3 (2018): 71-85.

この記事が参加している募集

#学問への愛を語ろう

6,273件

この記事が気に入ったらサポートをしてみませんか？