見出し画像

脳の成長を深層学習モデルに見立てて考えてみる

2週間ほど前、第一子が産まれました。

現在、育休をとって万全な体制で日々寄り添っているのですが、日々よく観察をしていると成長速度の著しさに気づけてとても面白いです。というか可愛い。

例えば、日々の飲むミルク量が徐々に増えてきたり、泣く声のボリュームが少しずつ大きくなったりして肺活量が成長しているのかな?と思いを馳せたり。

また最近は物体と人間の顔を区別して認識しているかのような目線の動きをし始め、さらに特定の人物に対してより意識的に追従したりするなど、視覚情報からの情報処理能力が発達してきているのかなと感じたりしてます。

とまあ親バカっぷりが出てしまうこの頃ですが、脳の発達と深層学習モデルはなんだかとても似ているなと思い、深層学習モデルの側面から脳の発達について思考してみたメモです。


至った仮説

  • 生後から数年間にわたって膨大な脳のシナプスを形成するのは、五感を通じた外部の刺激・情報に対して、ゆたかな表現を獲得するためのプロセスなのではないか

  • 膨大に形成されたシナプスの刈り込み(削除)が行われるのは、少ないパラメータでも対応できる汎用性を獲得し、また軽量にすることで効率的/効果的な学習と思考を可能にするためなのではないか

  • より多くの経験(データ量)を学習し、またその経験を言葉にして語りかけることで、汎用的なシナプスの経路を獲得/強固となり、さまざまな事象に対しての普遍性を見つける力が強まったり、情報洪水の社会において重要な必要な情報の取捨選択をする力が高まるのではないか


脳の発達について

簡単にですが、脳の発達についても調べてみました。雑メモなので、2011年のものではありますが、わかりやすさを重視し、日本語である程度わかりやすくまとめられている以下の論文を参考に見てみました。

https://www.jstage.jst.go.jp/article/jjdp/22/4/22_KJ00007731433/_pdf/-char/ja

乳児期の脳の構造形成
生まれた後の神経系の発達の中で最も顕著な変化は、シナプスの形成です。胎児期にもシナプスの形成は生じていますが、その変化は生後1年間で最も大きいです(Huttenlocher, 2002)。シナプスの形成過程は、人間の脳の領域ごとに異なると考えられています。例えば、一次視覚野では、生後数ヶ月の時期には、驚くべきスピードで、1秒間に100万個ものシナプスが新たに形成されます。

そして、生後6〜8ヶ月にかけて、シナプスの数は最大になり、その後シナプスは刈り込まれます。一方、前頭前野などの領域では、シナプスの数は3歳まで増え続け、その後減少に転じます。

大脳皮質では、シナプス数が最大になる時期は感覚野や運動野が最も早く、感覚連合野から高次の連合野へと階層性の高い領域ほど遅くなります。このように、脳の領域に応じた段階的なシナプス形成と刈り込みが、発達の段階的な進行に関係していると考えられてきました。

この過剰な生成と刈り込みという現象は、神経系の発生過程において広く見られ、神経細胞や軸索についても、生まれる前の早い段階で生じると考えられています(Innocenti & Price, 2005)。生後のシナプスの顕著な変化は、外界からの刺激を受けながら、機能的な神経回路網を形成するために重要であると考えられています。特に、初期にランダムに生成された要素を、環境との相互作用により選択・淘汰するというダーウィニズムの枠組みでの説明がなされています(Changeux, 1985; Edelman, 1989)。

例えば、神経細胞と筋肉との間の接続を形成するような発達過程では、適切な入力を受けられない細胞や不必要なシナプスを選択的に削除することで、整然と並んだ神経筋接合部を形成するといった現象を良く説明することができます。しかし、脳の神経回路網の形成においては、どのような単位で選択が起きるのかはよくわかっていません。また、シナプスの生成と刈り込みはどんな時期にも同時に起こることが示されており、シナプスの純粋な数は、ある時期までは増えてそれ以降は減るように見えるだけで、過剰生成期と刈り込み期という2つの段階があるわけではないという可能性も考えられます。

髄鞘(ミエリン)は、軸索を覆う絶縁性の脂質の層で、神経伝達速度を飛躍的に増加させます。その形成は胎児期に始まり、脳の領域に応じて、髄鞘化する時期が異なります。特に、感覚野・運動野から感覚連合野、高次連合野へと、脳の階層性に対応する順序で髄鞘化されるため、髄鞘化の順序が段階的な発達を決定するという考え方が示されています。

最近では、MRIによって、乳児期の髄鞘化の様子を画像化する研究も行われています(Deoni et al., 2011)。しかし、髄鞘化は比較的ゆっくりと進行する過程であり、生後すぐに激しく変化する行動の発達を髄鞘化だけで説明することは難しいと考えられています。

「乳児期の脳の構造形成」を引用し、GPT-4で理解しやすい日本語へ再編集

すごい雑ですが以下のように解釈しました。

  • シナプスの数を増やす

    • 生後から数年は新たなシナプスが大量に形成されていく

  • シナプスの質を高める

    • あるタイミングからシナプスの刈り込みが行われ、使われているシナプスが残る

ただ増やすとどうなるのか、刈り込まれるとどうなるのか?があまりイメージがつかなかったので、ここから深層学習モデルの見地から考えてみようと思いました。


なぜシナプスを刈り込むのか?

この疑問を解消するために深層学習におけるいくつかの知識について触れていきます。

深層学習モデルのパラメータを無くすことで、汎化性能を獲得するというアプローチがあります。汎化性能とは、未知のデータに対して予測できる性能です。

また過学習という言葉もあります。これは学習したデータにフィットしすぎて、答案を暗記しまくったモデルとなり、未知データに対しての予測が弱い状態となっていることを意味します。

従来は、モデルのパラメータの数を増やしすぎると、過学習を起こしてしまうみたいな経験則が語られていました。

これを解決する方法の一つとしてドロップアウトというものがあり、ランダムに選択されたパラメータを0にした状態(無い状態)で学習を進めるアプローチです。これにより過学習を抑えられる(汎化性能が高まる)傾向にあります。

汎化性能が高まる理由としては、暗記方式で学習しているだと一部のパラメータが削除されたときに答えられなくなってしまうので、共通概念となる思考回路を強化することで、ある程度対応できるようにしているということだと思っています。

これ、乳幼児の脳発達にも当てはまりそうじゃ無いですか?

  • シナプスの数を増やすということは、様々なデータを覚えることができるようになる分、過学習のようにあくまで「暗記する」にとどまっている状態。

  • 使われていないシナプスの刈り込みが起こるということは、未知のことに対しても考えることができるようになる汎化性能を高めているという状態なのかなと思います。

つまり、シナプスが刈り込まれている(シナプス数の減少)未知なことへ対処するための思考回路を強めるプロセスなのかなとイメージが湧きました。

シナプスの刈り込みと各種の能力
パターン認識
:刈り込まれたシナプスネットワークは、効率的な情報処理により、複雑な環境の中でのパターンを認識する能力を向上させます。
記憶:シナプスの接続パターンは、我々が経験することを記憶する基盤を形成します。シナプスの刈り込みにより、重要な情報が強化され、不要な情報が削除されることで、記憶はより効率的になります。
学習:学習は、新しい情報を取り込み、それを用いてシナプスの接続を調整する過程です。シナプスの刈り込みは、新しい情報を効果的に統合する能力を高めます。
意思決定:意思決定は、利用可能な情報に基づいて最善の行動を選ぶ能力です。刈り込まれ、効率化されたシナプスネットワークは、より良い選択を迅速に行う能力を向上させます。

GPT-4より


シナプスを増やして、その後に減少させるのであれば、最初から小さいシナプスで良いのでは?

まず一般的にパラメータ数が多い(つまり、モデルが複雑な)ほど、データセットに対してより正確な予測結果を示すとされています。

五感を通じて得られてくるシグナルや、それらが抽象的に意味をなしてくるさまざまな情報(例えば言葉など)は、かなり高度で膨大なはずです。そのため、これらをまずは適切に理解できるように、シナプス(パラメータ)を大量に形成しているのでは無いかと思います。

また深層学習分野での研究として「宝くじ仮説」というものがあります。

「宝くじ仮説」とは、深層学習における一種の理論で、ネットワーク内の一部の小さなサブネットワーク("当たりくじ"と呼ばれる)が、適切に訓練された場合、全体のネットワークと同等またはそれ以上のパフォーマンスを発揮できる、という仮説です。

具体的には、大きなニューラルネットワーク(つまり多くのニューロンや接続があるネットワーク)を訓練すると、ネットワーク内の一部の小さなセクションだけが、実際にはタスクの解決に大いに貢献しているということです。これらの小さなセクション(「当たりくじ」)を見つけることができれば、それらだけを使って同様の結果を得ることができます。つまり、大量の計算資源を使って全体の大きなネットワークを訓練する代わりに、これらの小さな「当たりくじ」だけを訓練することで、効率的に良い結果を得ることができるという考え方です。

この仮説の重要なポイントは、これらの「当たりくじ」を最初から見つけるのは困難で、一度大きなネットワークを訓練することで初めて見つけられるということです。そしてそれらを見つけたら、それらだけを使って訓練を進めることができ、全体のネットワークと同等またはそれ以上のパフォーマンスを発揮することができるというものです。

GPT-4

つまりこの仮説の主張としては一部のパラメータが推論(思考)において、多大な貢献をしているということです。

一方で、モデルが大きい方が(複雑な方が)データセットに対してより正確に予測ができているということもあるので、まずモデルを大きくし、その後に使われているパラメータだけを残すというプロセスが重要なのだろうということが見受けられます。

脳の成長においても同様のプロセスを辿っているのかもしれませんね。


ここまでの内容を踏まえて、親として何ができそうか?

これについて考える前に、グロッキングという現象について触れてみます。

grokkingとは、「過学習してしばらく経ってから、急に汎化誤差が下がり始める(正解率が上がり始める)」という現象のことで、2022年に初めて報告されました1。この正解率上昇の時間差は、訓練データが多いほど小さくなります。

引用:NeurIPS 2022 参加報告 後編
https://blog.recruit.co.jp/data/articles/neurips_2022_2/

またこちらのスライドがとてもわかりやすいです。いくつか引用させていただきます。

引用:[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
引用:[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

つまり深層学習モデルでは一般的に、データの学習量が汎化性能を高めるまでの時間に影響を与えるということが言われています。学習量が多いほど、最適化にかかる時間が急激に増加すると。

また正則化のアプローチをすると、収束に必要なサンプル数が減少するという話もありました。

引用:[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

なぜ正則化が有効なのかが分からなかったのですが、考えられることについてGPT-4に考察してもらうと、

正則化は、モデルの学習過程を制約することで、モデルが訓練データに過学習(overfitting)するのを防ぐ手法です。過学習は、モデルが訓練データを「記憶」する傾向が強くなり、新たなデータに対する一般化能力が低下する現象です。

正則化により、モデルは訓練データに対して完全にフィットするのではなく、より「平滑」な関数を学ぶことを促されます。これにより、モデルはデータ内のノイズや特定のサンプルに依存するパターンに引きずられることなく、データ全体の基本的なパターンを把握することができます。結果として、モデルの一般化能力が向上します。

これがグロッキングにどのように関連しているかというと、グロッキングはモデルが「記憶」から「一般化」へと移行する過程を指す現象です。正則化が適用されると、モデルは「記憶」から「一般化」への移行をより早く、またはより効率的に達成することができます。これは、正則化がモデルが訓練データに過学習するのを防ぎ、データ全体の一般的なパターンを学ぶことを促すためです。

したがって、正則化により、グロッキングに必要なデータ量を抑えることができると考えられます。つまり、モデルは少ないデータでも一般化を達成しやすくなるため、グロッキングの過程を経るために必要なデータ量が減少します。

GPT-4

深層学習領域の研究者ではないので、この考察が正しいかは判断つきませんが、ある程度の納得感はあります。

これを脳の成長に置き換えると、日常生活で五感を通して体験するあらゆる具体的な事象には、その事象特有の性質(モデル学習文脈におけるノイズ)があります。

一般化を促す上では、それらを言語という抽象度の高い形で、それらの物事の見方を伝えることで、正則化に近しい働きをすることができるのでは無いかと思いました。

ここまでの話を踏まえて、親としてできることを考えると、

我が子(特に幼い頃)には、さまざまな経験をしてもらえるように、自らの挑戦を止めることなく見守り、また家の中だけでは体験することが難しいような多様な環境に連れていったりし、また体験・観察をしている時や終えた後に、そのコトについて親が言葉で解釈し直して語りかけてみることが、脳の成長にとっては良いことなのかなと思いました。


おわりに

我が子、何より愛おしいです。観察していると1日が過ぎてしまうので、アウトプットが滞っていたのですが、こうして紐づけて考えてみると、色々と発見もありました。

子どもが産まれてから自分の中での物事に対しての視点(切り口)が少し変化しているのを感じます。

LLM領域のトレンドをこれまで通りキャッチアップするのが難しくなったりと戸惑う部分もありましたが、その変化を素直に受け止めて、自分なりの形で引き続きアウトプットを続けていこうと思いました。


この記事が気に入ったらサポートをしてみませんか?