見出し画像

計算論的神経科学 第5章-1

 「計算論的神経科学」(田中宏和)の第5章(〜p134)についてメモ書きする。第五章では確率論的な系を扱った信号依存性ノイズを用いた最適制御について説明されている。

制御則(フィードフォワード/フィードバック)

 制御則には大きく分けてフィードフォワード制御及びフィードバック制御がある。フィードフォワード制御は、制御信号が時間tの関数u=u(t)として与えられるのに対し、フィードバック制御では、制御信号は状態変数xの関数u=u(x)として与えられる。決定論的な形では、ある時刻の状態は与えられた制御信号に対し一意に決まるが、確率論的な形では、ノイズが含まれるため制御信号に対し一意に決まらず、フィードフォワード制御及びフィードバック制御は別の制御則として扱われる。確率的力学を扱う上で、離散及び連続時間を考える必要があり、まずは離散時間システムを考えるのが簡単である。

最小分散モデル(フィードフォワード制御)

 力とノイズの大きさには相関があると考えるのが妥当であり、平均0、標準偏差が運動指令に比例するガウス雑音を含む確率的力学方程式として、式(5.2)、(5.3)が提案された。式(5.1)と比較すると、ノイズw_tがなくなった代わりに信号依存性ノイズが導入され、これは摂動u_tに比例する。信号依存性ノイズのもとで正確な運動を行うモデルとして最小分散モデルが提案された。これを定量化し、時間ステップを一つずつ繰り下げていくと式(5.4)が得られ、これより状態変数の期待値(式(5.5))及び共分散分散行列(式(5.6))がそれぞれ得られる。最小分散モデルにおいて、運動終了後の状態の期待値E[x_t]が目標位置x_fに届くという制約条件の下で、終了後の位置分散(式(5.8)、二次のコスト関数)を最小にする必要がある。式(5.8)において、状態変数ベクトルの行列(1,1)成分は位置を表す。式(5.8)を最小化する問題は、最適化法(二次計画法)で解くことができ、滑らかな軌道はノイズ雑音を含む方程式を用いた正確性の最大化からも求められるように、必ずしも滑らかさの評価関数から生じているわけではないかもしれない(=最小限の制御信号を用いた結果滑らかな軌道が出てくる)。

ダイナミックプログラミング(フィードバック制御)

 フィードフォワード制御は速い運動の記述には向くが、運動中に絶え間なく入力される感覚信号は用いていない。信号依存性ノイズを前提とした系では、感覚信号から推定される現在の系の状態を用いてフィードバック制御を行うべきである。ダイナミックプログラミングは最適化の次元を下げる方法である。これは離散時間/離散時間、両方に対して当てはめることができ、離散時間のハミルトン-ヤコビ-ベルマン方程式(ベルマン方程式)では、時間を後ろ向きに1ステップずつ戻していく。次に決定論的システムにおけるベルマン最適方程式を述べたのち、確率論的システムにおけるベルマン最適方程式について述べる。

決定論的システムでのベルマン最適方程式(離散時間) 

 はじめに、決定論的システムにおける
時刻T-1までの瞬時コストの足し合わせ(Σ{T-1}_{t'=t}g(x_t', u_t')+g_T(x_T))+終点コスト(g_T(x_T))
を最小化する最適制御問題(式(5.10),(5.11))を考える。ここで時刻tにおける瞬時コストを用いて、時刻t+1からTを考慮すると、式(5.12)の第一式第二項が得られる。ここで評価関数を用いて式(5.12)が得られる。
 また、式(5.12)が解析的に解けない場合において、しばしば線形の運動方程式(式(5.13))を用いて二次の評価関数(式(5.14))を最小化する、線形二次レギュレータ(LQR)制御が用いられる。LQRは
J(t)=∫[0→∞][(x_t)'Q(x_t) + (u_t)'R(u_t)]dx
を最小化することが目標である。離散時間を仮定しており、且つ式(5.10)より
J(t)=Σ{T-1}_{t=0}((x_t)'Q(x_t) + (u_t)'R(u_t))+(x_T)'Q_T(x_T)
である。筆者が式(5.14)において全体に1/2をかけている理由は不明(おそらく参考文献における導出過程での産物)であるが、どちらでも最小化問題において支障はない。この問題をポントリャーギンの最小原理(運動方程式を満たしながら評価関数を最小化する方法、分からない人は以前のnoteを参考にしていただきたい)及びダイナミックプログラミングを用いて解く。ポントリャーギンの最小原理では、ラグランジュ未定乗数λを導入して式(5.15)と書くことができる。式(5.16)で表されるハミルトニアンを導入する。後は式(5.14)が極小値を取るように計算(式5.17)すれば良い。一方、ダイナミックプログラミングでは式(5.18)(式(5.14)の0→T-1がt→T-1になったもの)を式(5.11)から式(5.12)の変形同様、時刻tとt+1→T-1で分けると式(5.19)、更に式(5.20)が得られる。時刻Tでのcost-to-go関数は制御信号を含まず、状態x_Tの二次関数である。これをt=T-1のベルマン方程式(式(5.22)第一式)に代入すると式(5.22)第二式となり、更に式(5.13)より式(5.22)第三式が得られる。これを最小にするため先ほど同様にラグランジュ未定乗数を導入すると
λ_i – A + BR^{–1}B'x = 0
λ_i x+ Q + A'x = 0
であるから、制御信号は式(5.23)(=リカッチ方程式)となる。

確率論的システムでのベルマン最適方程式(離散時間)

 ここまで決定論的システムでのベルマン方程式について述べたが、確率論的な系の最適制御を考えたとき、ベルマン方程式は真の威力を発揮するらしい。線形の運動方程式(式(5.13))に、ガウス分布に従う過程ノイズを加えたものを考える(式(5.29))。式(5.30)の期待値に対し、ダイナミックプログラミング的に1ステップごとに現れる過程ノイズの影響(のみ)を考がえると、ベルマン方程式は式(5.32)となる。式自体は上記のcost-to-go関数とほぼ同じだが、時刻tにおける過程ノイズの期待値と制御信号の最小化のみが現れていることに注意する。式(5.33)より、s_tの反復式は
s_t=s_{t+1}+1/2 tr(Ω^W S_{t+1})
(時間tの定数項s = 時間t+1の定数項s(ノイズの寄与)+1/2 (ガウス分布に従う時間t+1の行列Sの対角成分和(トレース)))
となる(式(5.34))。

この記事が気に入ったらサポートをしてみませんか?