Gymで強化学習㊶REINFORCE:実践編③

2023年10月6日 22:48

前回は、REINFORCEの実践でベースラインとして状態価値の予測値を使い実験を行いました。今回は、REINFORCEを行動値が連続になっている環境に適用してみます。

これまで扱ってきた問題では、全て行動は有限の選択肢から選ぶものばかりでした。しかし、今回扱うGymの環境 MountainCarContinuous (マウンテン・カーの連続値版）では、車に適用する力の値を行動の値としています。

よって連続値の範囲から行動のための値を指定することになりますが、その範囲はー１から＋１までとなっており、範囲を超える場合は自動的にクリッピングされます。つまり、ー１より小さい行動値はー１に、＋１より大きい行動値は＋１となります。

観測値としては、次の２つを受け取ります。

目的は、なるべく少ない力で、速やかに右の黄色側に到着することです。その際のx軸の値は、0.45 以上となります。

報酬は、ゴールに到着すると＋100を受け取りますが、それまでは罰則として各ステップごとに次の値が与えられます。

$$
-0.1 \times \text{action}^2
$$

なお、車の初期位置は、x軸で-0.6から-0.4の間にランダムに設定されます。x軸が-0.5だと谷底です。初期速度は０になります。

では、さっそく実装を始めましょう。

ここから先は

21,720字 / 3画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？