見出し画像

強化学習の勉強 2日目

書籍で強化学習の勉強をしています。実際のPythonコードの実行、グラフの表示、強化学習を行うゲームの実行を通して操作を覚えて、理論の説明も解説を読んで基礎の部分から勉強しています。
マルコフ過程という聞いたことがある理論が使われていました。全く新しい理論というわけではなく、それ以前の人工知能の研究の成果が一気に実用化の段階にきたことがなんとなくわかります。

「強化学習」を学びたい人が最初に読む本

https://amzn.asia/d/4MBdId6

4章と5章でQ学習という理論を、ロボットが地面にあるルビーを拾うというシンプルなゲームを通して解説しています。全探索して最適解を見つける手法ではなくて、報酬からゴールをみつける方法を一つ一つ丁寧に解説しています。
そこには、確率、動的計画法という二つの大きな分野の考え方が軸となっています。

AIというと、なんとなくコンピュータが自分で問題を設定して、解法を編み出しているように思えますが、これまで力技で全探索して解こうとしていたものを、確率的に最適解に近づけるように試行しながら学習していく過程がわかります。

まず、解ける問題であることが大前提にあって、解けない問題の場合でも最適解に近づけるように人間が導かないといけないこともわかります。

何冊か書籍を流しながら読んで、詳細の理論まで入って行けるようになりました。次は、機械学習についてさらに初歩のところから勉強したいと思います。そらで理論を言えて、コードを書けるくらいのところまでいきたいと思っています。

この記事が気に入ったらサポートをしてみませんか?