マガジンのカバー画像

強化学習入門

109
強化学習関連のノートをまとめました。
運営しているクリエイター

2019年8月の記事一覧

マルコフ決定過程とベルマン方程式

1. マルコフ決定過程「マルコフ決定過程」(MDP)は、「環境」を表す「数理モデル」です。「数理…

npaka
4年前
19

Unity Obstacle Towerの攻略

以下の記事が面白かったので、ざっくり訳してみました。 ・Competing in the Obstacle Tower …

npaka
4年前
3

Stable Baselines入門 / GIFアニメでの出力

Stable Baselinesのエージェントのテストの様子をGIFアニメで出力します。 import gymimport …

npaka
4年前
3

Stable Baselinesでソニックの1面を攻略するまでの記録

Stable Baselinesでソニックの1面を攻略するまでの記録です。(先人の知恵を使ってるので、そこ…

npaka
4年前
3

OpenAI Five

以下の記事が面白かったので、ざっくり訳してみました。 ・OpenAI Five 1. OpenAI Five 5つ…

npaka
4年前
4

PPOのハイパーパラメータとその範囲

以下の記事が面白かったので、ざっくり訳してみました。 ・PPO Hyperparameters and Ranges …

npaka
4年前
10

Gym Retro入門 / クラウド学習

クラウドでGym Retro環境の学習を行います。クラウド環境としては、無料で使える「Google Colab」を使います。「Google Colab」の使い方は知っている前提で説明を進めます。 1. Google Colabのノートブックの作成はじめに「Google Drive」で「Google Colab」のノートブックを作ります。そして、メニュー「編集→ノートブック設定」で「GPU」を有効にします。 2. アップロードするZIPファイルの作成アップロードする学習コー

Gym Retro入門 / 完了条件と報酬関数

1. 完了条件と報酬関数Gym Retroの「ソニック・ザ・ヘッジホッグ」の環境を学習の目標にあわせ…

npaka
4年前
2

強化学習でソニック・ザ・ヘッジホッグを攻略(2)

以下の記事が面白かったので、ざっくり訳してみました。 ・Creating a Custom Reward Functio…

npaka
4年前
3

OpenAI Retro Contestの技術レポート

「OpenAI Retro Contest」のソニックベンチマーク公開時に提供された技術レポートをざっくり訳…

npaka
4年前
3

Gym Retro入門 / retro-movies

1. retro-moviesretro-moviesリポジトリでは、ソニック・ザ・ヘッジホッグのkb2形式の人間によ…

npaka
4年前
2

Gym Retro入門 / GamePad Companion

MacでStreamやインテグレーションUIなどでゲームコントローラを使うには、ゲームコントローラ…

npaka
4年前
2

Gym Retro入門 / ゲームインテグレーション

1. ゲームインテグレーション「ゲームインテグレーション」は、ビデオゲームのROMに、次の3つ…

npaka
4年前
3

Gym Retro入門 / AtariラッパーとRetroラッパー

1. 環境ラッパー強化学習のエージェントは環境と対話します。エージェントはenv.step()で「行動」を渡し、「次の状態」「報酬」「エピソード完了」「情報」を取得します。 state, reward, done, info = env.step(action) 「環境ラッパー」は、この処理をカスタマイズします。環境を環境ラッパーでラップすると、環境に新しい機能が追加されます。 2. Atariラッパー 「Atariラッパー」は、Atari環境用の「環境ラッパー」です。