見出し画像

研究工房 デジタルアカデミズム宣言 2

能動的推論 active inferenceとは何か
さて、能動的推論とはなにか、そしてそれをロボティクスの設計に活用するとはどのようなことなのか。しばらくこの問題について考えていきたい。読む論文は二つである。

Active inference: demystified and compared


最近MITから出版されているNeural Computationに発表された。書誌的には次の情報である。
Neural Computation (2021) 33 (3): 674–712.
著者は
Noor Sajid,


Philip J. Ball,

Thomas Parr,

Karl J. Friston
である。能動的推論の提唱者であるフリストンとその若い同僚SajidとParr, そしてオックスフォード大学の工学部のMachine Learning Research GroupのBallの共著になっている。

タイトルだが、Active inference: demystified and compared となっており、能動的推論についていろいろ言われているが、その全体像を言い出しっぺのフリストンのグループが明確にするよ、というのがdemystifiedで、comparedというのは機械学習で強化学習として知られている方法とどこが違うのか、どこが優れているのかを説明してるよ、ということを示している。

さて、全部をDeepLにかけて訳したテキストを作った。数式などは処理されていないことと、専門用語の訳が不安定なので、英文も参考にした。まだ英語の専門用語の日本語訳の指定が出来ない。他の言語ではできるものもあるようだが。で、翻訳をしっかりと読んでみた。わりと長い論文なので、3時間くらいかかったが朝のうちに読了。英語だったら毎朝読んで一週間くらいかかった気がする。

で、英語のアブストラクトの翻訳を読んでみたが、どうも変な気がする。メリハリがないというかすっきりしていない。で、英文を参考に、またDeepLの訳文を参考に僕が和訳をつくってみた。それをあらためてDeepLにいれてみた。とても明晰な英語になったと思う。これはDeepLの問題というより、英文の方の問題で、明晰な文体で言いたいことを語るってのはなかなか難しい。書き手は思いがあるので、その思いがせっかちな文章を生み出してしまう。論文を一読した印象をもとに造り直した日本語をもう一度DeepLで英語にしてみた。

英語原文
Abstract 

Active inference is a first principle account of how autonomous agents operate in dynamic, non-stationary environments. This problem is also considered in reinforcement learning, but limited work exists on comparing the two approaches on the same discrete- state environments. In this paper, we provide: 1) an accessible overview of the discrete- state formulation of active inference, highlighting natural behaviors in active inference that are generally engineered in reinforcement learning; 2) an explicit discrete-state comparison between active inference and reinforcement learning on an OpenAI gym baseline. We begin by providing a condensed overview of the active inference literature, in particular viewing the various natural behaviors of active inference agents through the lens of reinforcement learning. We show that by operating in a pure belief-based setting, active inference agents can carry out epistemic exploration — and account for uncertainty about their environment — in a Bayes–optimal fashion. Furthermore, we show that the reliance on an explicit reward signal in reinforcement learning is removed in active inference, where reward can simply be treated as another observation we have a preference over; even in the total absence of rewards, agent behaviors are learned through preference learning. We make these properties explicit by showing two scenarios in which active inference agents can infer behaviors in reward-free environments compared to both Q-learning and Bayesian model-based reinforcement learning agents; by placing zero prior preferences over rewards and by learning the prior preferences over the observations corresponding to reward. We conclude by noting that this formal- ism can be applied to more complex settings; e.g., robotic arm movement, Atari games, etc., if appropriate generative models can be formulated. In short, we aim to demystify the behavior of active inference agents by presenting an accessible discrete state-space and time formulation, and demonstrate these behaviors in a OpenAI gym environment, alongside reinforcement learning agents. 

Keywords: active inference, variational Bayesian inference, free energy principle, generative models, reinforcement learning 

奥出日本語訳(DeepLの翻訳を参考に英語の文章を整理して日本語にしながら)
概要 

能動的推論は、自律的なエージェントが動的で非定常な環境でどのように振る舞うかを説明する第一原理である。この問題は強化学習でも考えられているが、同じ離散状態の環境で能動的推論と強化学習を比較する研究はこれまでなかった。本論文では、以下の内容について議論する。1) 離散状態において能動的推論がどのように現れるか。2) OpenAI Gymのベースライン上で、明示的な離散状態における能動的推論と強化学習を比較する。まず、強化学習のレンズを通して能動的推論エージェントの様々な自然な行動に焦点を当て、能動的推論に関する論文をレビューする。純粋に信念に基づいた設定で動作する場合、能動的推論エージェントは、ベイズ最適な方法で、エピステミックな(通常は隠れた事象の)探索を行い、環境に関する不確実性を考慮することができることを示す。さらに、能動的推論は強化学習における明示的な報酬信号に依存しないことを示す。強化学習における報酬は、能動的推論において、単に優先権を持つ別の観測値として扱うことができる。また、Q-learningやベイズモデルに基づく強化学習エージェントと能動推論エージェントの行動を比較し、能動的推論が報酬のない環境での行動を推論できる2つのシナリオを示す。最後に、適切な生成モデルが定式化されれば、ロボットの腕の動きやAtariゲームなど、より複雑な設定に能動的推論を適用できることを指摘して本稿を締めくくる。我々の目標は、離散的な状態空間と時間の定式化によって能動的推論エージェントの動作を明らかにし、これらの動作をOpenAIジム環境の強化学習エージェントと比較することで、能動推論の有効性を実証することである。

キーワード:能動的推論、変分ベイズ推論、自由エネルギー原理、生成モデル、強化学習 

これをDeepLで英語に変換してみた。
Overview 

Active inference is a first principle that explains how autonomous agents behave in dynamic, non-stationary environments. Although this problem is also considered in reinforcement learning, there has been no research comparing active inference and reinforcement learning in the same discrete-state environment. In this paper, we will discuss the following: 1) how active inference emerges in discrete states. 2) We will compare active inference and reinforcement learning in explicit discrete states on the OpenAI Gym baseline. First, we would like to review  the papers on active inference, focusing on the various natural behaviors of active inference agents through the lens of reinforcement learning. We will show that, operating in a purely belief-based setting, active inference agents can perform epistemic (usually hidden-seeking) search and account for uncertainty about the environment in a Bayesian optimal manner. Furthermore, we show that active inference does not rely on explicit reward signals in reinforcement learning. The reward in reinforcement learning can be treated in active inference simply as another observable that we have priority over. We compare the behavior of reinforcement learning agents based on Q-learning and Bayesian models with that of active inference agents, and show two scenarios in which active inference can infer behavior in a reward-free environment. Finally, we conclude the paper by pointing out that active inference can be applied to more complex settings, such as robot arm movements or Atari games, once an appropriate generative model has been formulated. Our goal is to clarify the discrete state space and time formulations to elucidate the behavior of active inference agents, and to demonstrate the effectiveness of active inference by comparing these behaviors with reinforcement learning agents in the OpenAI gym environment.

Keywords: active inference, variational Bayesian inference, free energy principle, generative model, reinforcement learning 

まあおなじようなものだが、僕が解釈・翻訳した彼らの文章を英語に直したほうが、研究の建て付けがわかりやすい文章になっていると思う。こうしたオリジナルの文章の再記述をパラフレーズという。読み手の解釈がはいるものの、著者が提示した論述の流れと論証につかったデータを変えることはない。この能力が研究をするときに最初にもとめられる。

しばらくこの論文ともう一つの大切な論文


The active inference approach to ecological perception: general information dynamics for natural and artificial embodied cognition


をパラフレーズして読んでいきたい。こちらの論文は
Adam Linson1,2,3*, Andy Clark 4,5, Subramanian Ramamoorthy 6,7 and Karl Friston
が著者である。注目して欲しいのは著者の横に振ってある番号で、所属を示している。

 1 Department of Computing Science and Mathematics, University of Stirling, Stirling, United Kingdom,
2 Department of Philosophy, University of Stirling, Stirling, United Kingdom,
3 Institute for Advanced Studies in the Humanities, University of Edinburgh, Edinburgh, United Kingdom,
4 School of Philosophy, Psychology and Language Sciences, University of Edinburgh, Edinburgh, United Kingdom,
5 Department of Philosophy, Macquarie University, Sydney, NSW, Australia,
6 School of Informatics, University of Edinburgh, Edinburgh, United Kingdom, 7 Edinburgh Centre for Robotics, Edinburgh, United Kingdom,
8 The Wellcome Trust Centre for Neuroimaging, University College London, London, United Kingdom

認知科学、数学、哲学、心理学、言語学、情報理論、ロボティクス、そして神経科学と領域横断的なことがわかる。くわえて、この方向を強く引っ張ってきているAndy ClarkとKarl Fristonが共著者に入っている。

学問がこのように多岐にわたると、その共同研究を出版するメディアを探すことが大切になるが、現在はfrontiesというオープンで、誰でも始めることが出来る仕組みがある。非常に大きな組織でいろいろな集団があり、仲間で発起人になって論文を査読して掲載していく。現在、このグループからいくつもの影響力のある論文が出版されていて、学問において画期的な存在になりつつある。そこでロボットと人工知能に関する論文を出版するのがこの分科会Robotics and AIである。

アンディ・クラークとカール・フリストンが名前を連ねているところがすごい。ではどうすごいのか?次回はこの話をしてみたい。


この記事が気に入ったらサポートをしてみませんか?