見出し画像

Active Inference (能動推論)に関する誤解

神経科学界隈で自由エネルギー原理 (Free Energy Principle; FEP) と言えば、Karl Friston が脳における予測符号化計算モデルについて行ってきた一連の研究の中心的アイディアを指す。注目されるべき大事なアイディアの宝庫であると思うが、期待が大きすぎて誤解と幻滅を生む要因になっている感もある。とくに Active Inference (能動推論) に関する誤解について、2点整理しておきたい。

なお、以下のトピックの一部は上記の「自由エネルギー原理入門」に寄稿した記事にも載せています。合わせてご覧ください。

「能動推論」は「推論としての制御」

能動推論は、動物の身体運動において、自由エネルギーを制御信号に関して最大化する計算によって制御信号を決めようというアイディアである。Fristonはこれを強化学習や最適制御の alternative となる計算原理だとして売り出していた。しかし、強化学習や最適制御の formulation が進化した結果、2019年の機械学習の立場から振り返ってみたとき、特段に alternative とは言えないものとなってしまっている。

能動推論のアイディアの枢要なところは、以下の3点にまとめられると思う。
(1) 制御信号と状態変数の更新を、単一の目的関数(自由エネルギー=エビデンスの下界 (evidence lower bound; ELBO))の逐次的数理最適化問題に帰着させる 
(2) そのするために、制御目的を将来状態の事前確率で表現する
(3) こうすることにより、制御信号を生成する神経計算過程は、中枢ではなく末梢による局所的計算となり、実装しやすくなる

しかし、時代的にはFristonと平行して(もしくはお互いに横目で見ながら?)進みつつあった、制御問題の確率的定式化の研究により、(1)と(2)はほぼ当時Fristonが示した通りの形で(Fristonよりも洗練された形で)解決されている。

これを、「(確率的)推論としての制御」と言うことがある。一方で、機械学習の立場から(3)の神経計算過程は特段の興味の対象とはなっていない。そこで、能動推論のアイディアを導入した Friston の功績は依然として(3)に残っていると思う。だからといって「能動推論」の語をとくにこれを指す用語として使わねばならないほどではない。神経実装だけの問題だから。したがって「能動推論とは要するに推論としての制御のことである」と言い切って、「推論としての制御」の語をメインに使用するべきで、そのほうが誤解を生みにくいと思う。


能動推論は原理的には能動学習や探索を含まない

能動推論に関する最も大きな誤解として、これが能動学習 (active learning)の一種であるというものがある。僕自身も長らく同様の誤解をしており、この誤解が解けたときには大きな幻滅があったものだ。

機械学習における能動学習とは、学習者が学習すべき対象を能動的に選ぶしくみを指す。学習データの収集にコストが掛かる場合に、効率化を図ることができる。例えば、教師付き学習の問題で、ラベル無しデータが与えられており、その一部を選択して一定のコストを支払って教師ラベルをつけてよいとき、どれを選択すればよいか?というような問題である。強化学習ならば、探索 exploration・搾取 exploitation のトレードオフのうち探索 exploration に当たる。強化学習において探索的行動をさせるために、例えば行動オプション毎に選択確率を割り当て、確率を推定されるリターンの大きさに応じたものとする soft-max ポリシーを想定したり、その温度パラメタを調整したりする。温度が高いほど、一様確率のランダムポリシーに近づき、温度が低いほど期待値最大のオプションを選択する貪欲ポリシーに近づける。もう少し進んだアイディアとしては、探索を効率的にすすめるために「好奇心 curiosity 」に対応する項を天下り的に与えて報酬関数に追加するアイディアが提案され、Montezma's Revenge のような探索ゲームの好成績につながっている。

さて、この能動的探索に関して「能動推論ならば、自由エネルギーという単一目的関数の最大化という原理のみに基づいて制御信号を決めることで、能動的探索行動を自然に生成することができる」と期待していたのだが、これは全くの誤解であった。このことに気づいたのは、個人的に大きな幻滅であった。FristonはFEPに関する一連の研究の一貫として、「FEの分布」「期待FE」なる新装置を導入し、これを用いて「知識獲得価値(epistemic value; EV)」なるものを導出した。しかし、よく読んでみると、EVの導入のために脳内にFEやその将来期待値の時間発展を計算する過程を明に実装しており、これを用いてEVを求めていた。こういうやりかたはアドホックであり、アドホックさの度合いにおいて、好奇心 curiosity 項を追加した報酬関数を考えるのと大きな違いはない。

どうせアドホックに新規構造物を造り付けて載せなきゃならないなら、オッカムの剃刀が許してくれるようなものを選ぶべき。この観点から、好奇心を表現するためにFEの分布やFEの期待値を脳内に持たせようとするモデルは筋が悪いと思う。神経計算の立場から見た FEP の骨子は局所的計算をまとめる単一の目的関数を定義しているところにある。本質は、局所計算だ。

Q: 「FEは脳のどこにあるのでしょうか?」
A: 「FEは脳のどこにもありません。局所計算の総体を、自由エネルギー最大化でまとめて説明しようとしているのです。個々の計算は脳の局所に対応付けられますが、FE はどこかに対応付けられません。」

FEは上記のようなものであるべきだ。能動推論モデルの美点は、行動計画の計算を中枢でまとめず、末梢で局所的に計算できる形にした点にある。しかるに、epistemic value を定義するために「FE の分布」なるものが必要となるなら、FEを脳内のどこかに局所的に持ち、これを対象とした計算回路をどこか脳内に持たねばならなくなる。こんなことをすれば、FEPが持っていた最も大事な美点をドブに捨てたことになりはしないか?

この話はまたどこかで。

この記事が気に入ったらサポートをしてみませんか?