[強化学習]-マルコフ決定過程(MDP)の迷路問題を理解してみた
強化学習におけるマルコフ決定過程(MDP)の迷路問題とは、エージェントが状態を認識し、行動を選択して報酬を最大化する数学モデルのことです。要するに、強化学習の基本フレームワークです。今回は、マルコフ決定過程(MDP)の迷路問題における、一番簡単なPythonプログラム紹介です。
【お断り】
前回解説したように、強化学習の説明側の問題として、前提の説明なしに、いきなり(問題と)解説が始まります。今回は、強化学習で必ず出てくるこの迷路問題ですが、この基本プログラムを理解してない