![見出し画像](https://assets.st-note.com/production/uploads/images/122403380/rectangle_large_type_2_16978e6067b0bc579e63ac433657cc48.png?width=800)
書記が数学やるだけ#804 動的計画法(方策反復法・価値反復法)
ベルマン方程式の解法としての動的計画法について,方策反復法と価値反復法を比較して示していく。
問題
今回は,どんなマップかあらかじめ知っているものとする。
![](https://assets.st-note.com/img/1700647079844-1IJLN76f3C.png?width=800)
説明
方策反復法では,方策の評価と方策の改善を繰り返すことで方策を最適化する。
![](https://assets.st-note.com/img/1700647121955-tHpHwt2ijr.png?width=800)
一方で,価値反復法では事前に価値の改善を繰り返し行い,最後に方策の抽出を行うことで最適化する。
![](https://assets.st-note.com/img/1700647174889-Y0HtKwTJec.png?width=800)
解答
方策反復法では,行動価値関数Qを最大化する方策(今回では進行方向)を決め,そのときの状態価値関数を更新する,これを各マスごとに繰り返す。
![](https://assets.st-note.com/img/1700647352221-yNrqnrnbzd.png?width=800)
これを数式で示してみる。まず(1,2)のマスにおいて,左に進むのが最善であり,これに応じて状態価値関数が更新される。
![](https://assets.st-note.com/img/1700647485233-8PJmWHrT1R.jpg?width=800)
(2,2)に移動して同様に計算。以下同様の計算を行う。
![](https://assets.st-note.com/img/1700647556962-5hVxkfRlo5.jpg?width=800)
次に価値反復法について。ここでは各マスごとに価値の改善を行い,計算が収束したところで方策の抽出がまとめて行われる。
![](https://assets.st-note.com/img/1700647602039-Wl28HZf3Rr.png?width=800)
計算は以下の通りで,途中の方策の計算が省略される。
![](https://assets.st-note.com/img/1700647645783-Kcrn4SWrMQ.jpg?width=800)
本記事のもくじはこちら:
学習に必要な本を買います。一覧→ https://www.amazon.co.jp/hz/wishlist/ls/1XI8RCAQIKR94?ref_=wl_share