脳の成長を深層学習モデルに見立てて考えてみる
2週間ほど前、第一子が産まれました。
現在、育休をとって万全な体制で日々寄り添っているのですが、日々よく観察をしていると成長速度の著しさに気づけてとても面白いです。というか可愛い。
例えば、日々の飲むミルク量が徐々に増えてきたり、泣く声のボリュームが少しずつ大きくなったりして肺活量が成長しているのかな?と思いを馳せたり。
また最近は物体と人間の顔を区別して認識しているかのような目線の動きをし始め、さらに特定の人物に対してより意識的に追従したりするなど、視覚情報からの情報処理能力が発達してきているのかなと感じたりしてます。
とまあ親バカっぷりが出てしまうこの頃ですが、脳の発達と深層学習モデルはなんだかとても似ているなと思い、深層学習モデルの側面から脳の発達について思考してみたメモです。
至った仮説
生後から数年間にわたって膨大な脳のシナプスを形成するのは、五感を通じた外部の刺激・情報に対して、ゆたかな表現を獲得するためのプロセスなのではないか
膨大に形成されたシナプスの刈り込み(削除)が行われるのは、少ないパラメータでも対応できる汎用性を獲得し、また軽量にすることで効率的/効果的な学習と思考を可能にするためなのではないか
より多くの経験(データ量)を学習し、またその経験を言葉にして語りかけることで、汎用的なシナプスの経路を獲得/強固となり、さまざまな事象に対しての普遍性を見つける力が強まったり、情報洪水の社会において重要な必要な情報の取捨選択をする力が高まるのではないか
脳の発達について
簡単にですが、脳の発達についても調べてみました。雑メモなので、2011年のものではありますが、わかりやすさを重視し、日本語である程度わかりやすくまとめられている以下の論文を参考に見てみました。
すごい雑ですが以下のように解釈しました。
シナプスの数を増やす
生後から数年は新たなシナプスが大量に形成されていく
シナプスの質を高める
あるタイミングからシナプスの刈り込みが行われ、使われているシナプスが残る
ただ増やすとどうなるのか、刈り込まれるとどうなるのか?があまりイメージがつかなかったので、ここから深層学習モデルの見地から考えてみようと思いました。
なぜシナプスを刈り込むのか?
この疑問を解消するために深層学習におけるいくつかの知識について触れていきます。
深層学習モデルのパラメータを無くすことで、汎化性能を獲得するというアプローチがあります。汎化性能とは、未知のデータに対して予測できる性能です。
また過学習という言葉もあります。これは学習したデータにフィットしすぎて、答案を暗記しまくったモデルとなり、未知データに対しての予測が弱い状態となっていることを意味します。
従来は、モデルのパラメータの数を増やしすぎると、過学習を起こしてしまうみたいな経験則が語られていました。
これを解決する方法の一つとしてドロップアウトというものがあり、ランダムに選択されたパラメータを0にした状態(無い状態)で学習を進めるアプローチです。これにより過学習を抑えられる(汎化性能が高まる)傾向にあります。
汎化性能が高まる理由としては、暗記方式で学習しているだと一部のパラメータが削除されたときに答えられなくなってしまうので、共通概念となる思考回路を強化することで、ある程度対応できるようにしているということだと思っています。
これ、乳幼児の脳発達にも当てはまりそうじゃ無いですか?
シナプスの数を増やすということは、様々なデータを覚えることができるようになる分、過学習のようにあくまで「暗記する」にとどまっている状態。
使われていないシナプスの刈り込みが起こるということは、未知のことに対しても考えることができるようになる汎化性能を高めているという状態なのかなと思います。
つまり、シナプスが刈り込まれている(シナプス数の減少)未知なことへ対処するための思考回路を強めるプロセスなのかなとイメージが湧きました。
シナプスを増やして、その後に減少させるのであれば、最初から小さいシナプスで良いのでは?
まず一般的にパラメータ数が多い(つまり、モデルが複雑な)ほど、データセットに対してより正確な予測結果を示すとされています。
五感を通じて得られてくるシグナルや、それらが抽象的に意味をなしてくるさまざまな情報(例えば言葉など)は、かなり高度で膨大なはずです。そのため、これらをまずは適切に理解できるように、シナプス(パラメータ)を大量に形成しているのでは無いかと思います。
また深層学習分野での研究として「宝くじ仮説」というものがあります。
つまりこの仮説の主張としては一部のパラメータが推論(思考)において、多大な貢献をしているということです。
一方で、モデルが大きい方が(複雑な方が)データセットに対してより正確に予測ができているということもあるので、まずモデルを大きくし、その後に使われているパラメータだけを残すというプロセスが重要なのだろうということが見受けられます。
脳の成長においても同様のプロセスを辿っているのかもしれませんね。
ここまでの内容を踏まえて、親として何ができそうか?
これについて考える前に、グロッキングという現象について触れてみます。
またこちらのスライドがとてもわかりやすいです。いくつか引用させていただきます。
つまり深層学習モデルでは一般的に、データの学習量が汎化性能を高めるまでの時間に影響を与えるということが言われています。学習量が多いほど、最適化にかかる時間が急激に増加すると。
また正則化のアプローチをすると、収束に必要なサンプル数が減少するという話もありました。
なぜ正則化が有効なのかが分からなかったのですが、考えられることについてGPT-4に考察してもらうと、
深層学習領域の研究者ではないので、この考察が正しいかは判断つきませんが、ある程度の納得感はあります。
これを脳の成長に置き換えると、日常生活で五感を通して体験するあらゆる具体的な事象には、その事象特有の性質(モデル学習文脈におけるノイズ)があります。
一般化を促す上では、それらを言語という抽象度の高い形で、それらの物事の見方を伝えることで、正則化に近しい働きをすることができるのでは無いかと思いました。
ここまでの話を踏まえて、親としてできることを考えると、
我が子(特に幼い頃)には、さまざまな経験をしてもらえるように、自らの挑戦を止めることなく見守り、また家の中だけでは体験することが難しいような多様な環境に連れていったりし、また体験・観察をしている時や終えた後に、そのコトについて親が言葉で解釈し直して語りかけてみることが、脳の成長にとっては良いことなのかなと思いました。
おわりに
我が子、何より愛おしいです。観察していると1日が過ぎてしまうので、アウトプットが滞っていたのですが、こうして紐づけて考えてみると、色々と発見もありました。
子どもが産まれてから自分の中での物事に対しての視点(切り口)が少し変化しているのを感じます。
LLM領域のトレンドをこれまで通りキャッチアップするのが難しくなったりと戸惑う部分もありましたが、その変化を素直に受け止めて、自分なりの形で引き続きアウトプットを続けていこうと思いました。
この記事が気に入ったらサポートをしてみませんか?