あの“Suttonの強化学習”の改訂版！――近刊『強化学習（第2版）』第2版序文公開

2022年10月11日 09:33

2022年10月下旬発行予定の新刊書籍、『強化学習（第2版）』のご紹介です。
同書の「第2版序文」を、発行に先駆けて公開します。

＊＊＊

第2版序文

本書の第1版が刊行されてから20年、人工知能は、主に強化学習を含めた機械学習の発展に牽引される形で、目覚ましい進歩を遂げてきた。こうした発展は、一部では驚異的な計算能力が利用できるようになったことに起因しているものの、理論とアルゴリズムの新たな発展も原動力となっている。このような進歩の中で、1998年に刊行した本書第1版の改訂は長らく遅れていたが、2012年になってようやくこのプロジェクトに着手した。第2版では第1版と同様、強化学習の主要な考え方やアルゴリズムについて、関連分野のすべての読者がアクセスしやすいように、明確で簡潔な形で説明することを目的としている。第2版でも入門書であることには変わりなく、引き続き核となるオンライン学習アルゴリズムに焦点を当てている。一方、この数年の間に重要性を増した新しいトピックを追加し、現在ではより理解が深まっているトピックのカバー範囲を拡大した。しかし、様々な方向に爆発的に発展してきたこの分野を包括的に取り上げることはしなかった。こうした成果のうち、一部を除いてほとんど省略してしまったことをお詫び申し上げる。

第1版と同様に、強化学習を厳密に形式的に扱ったり、一般性の高い用語で定式化したりしないことにした。しかし、第1版の刊行以降のトピックをより深く理解するためには、もう少し数学的な説明が必要となった。そこで、より数学的な部分については、そこにあまり興味のない読者が読み飛ばせるように、灰色の枠内に書くことにした。また、第1版とは少し異なる表記を使用した。我々は講義をする中で、この新しい表記を採用することで、皆が混乱しがちな点に対処できることがわかった。新しい表記では、確率変数を大文字で表し、確率変数のインスタンス化を小文字で表すことで、これらの違いを強調している。（中略）

第2版では大幅に増補し、全体の構成も変更している。第2版は、序章にあたる第1章のあと、新たに三つの部に分かれている。第I部（第2～8章）では、厳密な解が得られるテーブル形式の場合を超えない範囲で、できるだけ多くの強化学習を扱う。テーブル形式の場合の学習方法とプランニング方法だけでなく、$${ n }$$ステップ手法とDynaによるそれらの統合について取り上げる。第I部で紹介するアルゴリズムの多くは、UCBや、期待Sarsa法、二重学習、ツリー・バックアップアルゴリズム、$${ Q }$$(σ)法、RTDP、MCTSなど、第2版で新しく追加されたものである。テーブル形式の場合に最初に徹底的に取り組むことで、核となる考え方をできるだけ単純な設定で進めることができる。本書の第II部（第9～13章）は、こうした考え方を関数近似に拡張することに専念する。人工ニューラルネットワークや、フーリエ基底、LSTD、カーネルベース法、勾配TD法や強調TD法、平均報酬法、真のオンラインTD(λ)法、方策勾配法などについての、新しい節が追加されている。第2版では、方策オフ型学習についての扱いを大幅に拡張している。最初に第5～7章においてテーブル形式の場合で説明し、次に第11章と第12章で関数近似を用いた場合について説明している。もう一つの変更点として、第2版では前方観測的な見方である$${n}$$ステップ・ブートストラップと、後方観測的な見方である適格度トレースを分離している（第7章で前者について十分に扱ったあと、第12章で後者について個別に扱うことにした）。本書の第III部では、強化学習と心理学（第14章）や神経科学（第15章）との関係についての全般的な新しい章を追加した。また、ケーススタディの章（第16章）についても、Atariのゲームプレイや、Watsonの賭け戦略、AlphaGoやAlphaGo Zeroなどの囲碁プログラムなどを盛り込むことで新しくした。それでもやむを得ず、この分野で行われたすべての研究のうち、ごく一部しか載せなかった。ここでの選択は、我々が長年、幅広い応用に対応できる安価なモデルフリー手法に対して関心をもっていることを反映している。最後の章では、強化学習が将来的に社会に与える影響に関する議論を行う。結果として、よくも悪くも、第2版は第1版の約2倍の量と多くなっている。

本書は、強化学習の1学期制または2学期制のコースの主要テキストとして使用することを想定している。1学期制のコースの場合は、核心をつかむために、最初の10章を順番にカバーする必要がある。これに好みに応じて、他の章や、Bertsekas、Tsitsiklis（1996）、Wiering, van Otterlo（2012）、Szepesvari（2010）などの他の本や文献の内容を追加してもよい。学生のバックグラウンドに応じて、オンライン教師あり学習に関する追加資料も役立つかもしれない。オプションやオプションモデルのアイディアを追加するのもよいだろう（Sutton,Precup,Singh,1999）。2学期制のコースであれば、本書のすべての章を補足部分も含めて網羅できる。また本書は、機械学習や人工知能、ニューラルネットワークに関するより広範な講義の一部として利用することもできる。この場合、本書の内容の一部だけを扱うことが望ましい。第1章で簡単な概要を理解したあと、第2章の2.4節まで、そして第3章と読み進めて、時間と興味に応じて残りの章の節を選択することをお勧めする。第6章は本書の主題と残りの章を理解する上で最も重要である。機械学習やニューラルネットワークに焦点を当てた講義では第9章と第10章を、人工知能やプランニングに焦点を当てたコースでは第8章を取り上げるのがよい。本書全体を通して、比較的難しく、本書の残りの部分を理解するのにあまり重要ではない節や章には＊印をつけている。これらについては、最初に読むときに飛ばしても、あとで問題となることはない。練習問題にも＊印がついていることがあるが、これはより高度な内容であり、各章の基本的な内容の理解にそれほど重要ではないことを示している。

ほとんどの章の終わりには「補足（文献と歴史）」というタイトルの節がある。ここでは、各章で示したアイディアの出典を明記し、さらなる読み物や進行中の研究への方向性を示し、関連する歴史的背景について解説している。この節を信頼性の高い完全なものにしようと努力したが、正直なところ、重要な先行研究をいくつか省いてしまった。そのことを改めてお詫び申し上げるとともに、本書の電子版に向けて、修正や拡張の提案を歓迎する。

（以下略）

＊＊＊

原著：R. Sutton　　
　　　A. Barto
監訳：奥村エルネスト純（株式会社エウレカ）　
　　　鈴木雅大（東京大）
　　　松尾豊（東京大）　
　　　三上貞芳（はこだて未来大）
　　　山川宏（全脳アーキテクチャ・イニシアティブ）
共訳：今井翔太（東京大）
　　　川尻亮真（株式会社Preferred Networks）
　　　菊池悠太（株式会社Preferred Networks）
　　　鮫島和行（玉川大）
　　　陣内佑（株式会社Lily MedTech）
　　　髙橋将文（株式会社DeepX ）
　　　谷口尚平（東京大）
　　　藤田康博（株式会社Preferred Networks）
　　　前田新一（株式会社Preferred Networks）
　　　松嶋達也（東京大）

不朽の名著、待望の改訂版！
強化学習発展の立役者自らが書き下ろした書。
「強化学習の考え方とアルゴリズムを明確に簡潔に説明する」という第1版の特長はそのままに、第2版では、発展的手法や心理学・神経科学との関係の紹介が大幅に加筆されています。
第I部では、テーブル形式の範囲でできるだけ多くの強化学習を扱い、核となる考え方を単純な設定で進めます。第II部では、そうした考え方を関数近似に拡張します。第III部では、心理学・神経科学との関係、AlphaGoなどのケーススタディ、将来展望について述べています。
ますます重要性を増す強化学習について、基礎から応用までを学べる一冊です。

［原著］Reinforcement Learning, Second Edition: An Introduction (The MIT Press, 2018)

＊＊＊

「第1版は、強化学習の学習者には必読の教科書となっています。刊行から20年の時間が経ち、AlphaGoなどの新しい技術も出てきました。こうした新しい話題をカバーしながら、基礎からしっかりと説明がされているのが、この改訂版です。……強化学習の分野もまだまだこれから大きく発展していくと考えられますが、本書は、現時点で、この分野を学ぶための最もわかりやすく整理された教科書だと思います。」

東京大学教授・松尾豊（監訳者序文より）

【目次】
第1章　序
　1.1　強化学習
　1.2　強化学習の例
　1.3　強化学習の構成要素
　1.4　強化学習の制約と範囲
　1.5　拡張された例：三目並べ（tic-tac-toe）
　1.6　ここまでのまとめ
　1.7　強化学習の成り立ち

第I部　テーブル形式の解法
第2章　多腕バンディット問題
　2.1　$${k}$$本腕バンディット問題
　2.2　行動価値手法
　2.3　10本腕バンディットによる実験
　2.4　逐次的実装
　2.5　非定常問題を調べる
　2.6　楽観的初期値
　2.7　上限信頼区間行動選択
　2.8　勾配バンディットアルゴリズム
　2.9　連想探索（文脈付きバンディット）
　2.10　まとめ　

第3章　有限マルコフ決定過程
　3.1　エージェントと環境の境界
　3.2　目標と報酬
　3.3　収益とエピソード
　3.4　エピソード的タスクと連続タスクの統一的記法
　3.5　方策と価値関数
　3.6　最適方策と最適価値関数
　3.7　最適性と近似
　3.8　まとめ

第4章　動的計画法
　4.1　方策評価（予測）
　4.2　方策改善
　4.3　方策反復
　4.4　価値反復
　4.5　非同期動的計画法
　4.6　一般化方策反復
　4.7　動的計画法の効率
　4.8　まとめ

第5章　モンテカルロ法
　5.1　モンテカルロ予測
　5.2　行動価値のモンテカルロ推定
　5.3　モンテカルロ制御
　5.4　開始点探索を使わないモンテカルロ制御
　5.5　重点サンプリングによる方策オフ型予測
　5.6　逐次的実装
　5.7　方策オフ型モンテカルロ制御
　5.8　*割引を考慮した重点サンプリング
　5.9　*意思決定ごとの重点サンプリング
　5.10　まとめ

第6章　TD学習
　6.1　TD予測
　6.2　TD予測の利点
　6.3　TD(0)法の最適性
　6.4　Sarsa法：方策オン型TD制御
　6.5　Q学習：方策オフ型TD制御
　6.6　期待Sarsa法
　6.7　最大化バイアスと二重学習
　6.8　ゲーム，事後状態，その他の特別な場合
　6.9　まとめ

第7章　$${ n }$$ステップ・ブートストラップ法
　7.1　$${ n }$$ステップTD予測
　7.2　$${ n }$$ステップSarsa法
　7.3　$${ n }$$ステップ方策オフ型学習
　7.4　*制御変量法による意思決定ごとの手法
　7.5　重点サンプリングなしの方策オフ型学習：$${ n }$$ステップ・ツリー・バックアップ法
　7.6　*統一的なアルゴリズム：$${ n }$$ステップ$${ Q }$$(σ)法
　7.7　まとめ

第8章　テーブル形式手法におけるプランニングと学習
　8.1　モデルとプランニング
　8.2　Dyna：プランニング，行動，そして学習の統合
　8.3　モデルに誤りがある場合
　8.4　優先掃き出し法
　8.5　期待更新とサンプル更新
　8.6　遷移軌道サンプリング
　8.7　リアルタイム動的計画法
　8.8　意思決定時のプランニング
　8.9　ヒューリスティック探索
　8.10　ロールアウトアルゴリズム
　8.11　モンテカルロ木探索
　8.12　本章のまとめ
　8.13　第I部のいくつかの軸によるまとめ

第II部　近似による解法
第9章　近似を用いた方策オン型予測
　9.1　価値関数の近似
　9.2　予測の目的関数（VE）
　9.3　確率的勾配法と擬似勾配法
　9.4　線形手法
　9.5　線形手法のための特徴量設計
　9.6　ステップサイズパラメータの手動による選択
　9.7　非線形関数による近似：人工ニューラルネットワーク
　9.8　最小二乗TD法
　9.9　メモリベースの関数近似法
　9.10　カーネル法ベースの関数近似法
　9.11　方策オン型学習を掘り下げる：興味と強調
　9.12　まとめ

第10章　関数近似を用いた方策オン型制御
　10.1　エピソード的擬似勾配制御
　10.2　擬似勾配$${ n }$$ステップSarsa法
　10.3　平均報酬：連続タスクのための新たな問題設定
　10.4　割引設定を批判する
　10.5　差分擬似勾配$${ n }$$ステップSarsa法
　10.6　まとめ

第11章　*近似を用いた方策オフ型手法
　11.1　擬似勾配法
　11.2　方策オフ型の発散の例
　11.3　死の三人衆
　11.4　線形状態価値の幾何
　11.5　ベルマン誤差の勾配降下
　11.6　ベルマン誤差の学習不可能性
　11.7　勾配TD法
　11.8　強調TD法
　11.9　分散の低減
　11.10　まとめ

第12章　適格度トレース
　12.1　λ収益
　12.2　TD(λ)法
　12.3　$${ n }$$ステップ打ち切りλ収益法
　12.4　繰り返し更新：オンラインλ収益アルゴリズム
　12.5　真のオンラインTD(λ)法
　12.6　*モンテカルロ学習におけるダッチトレース
　12.7　Sarsa(λ)法
　12.8　可変のλとγ
　12.9　制御変量法を用いた方策オフ型適格度トレース
　12.10　WatkinsのQ法からツリー・バックアップ(λ)法へ
　12.11　トレースを用いる安定した方策オフ型手法
　12.12　実装上の問題
　12.13　まとめ

第13章　方策勾配法
　13.1　方策近似とその利点
　13.2　方策勾配定理
　13.3　REINFORCEアルゴリズム：モンテカルロ方策勾配
　13.4　ベースライン付きREINFORCEアルゴリズム
　13.5　アクター・クリティック法
　13.6　連続問題に対する方策勾配法
　13.7　連続行動に対する方策のパラメータ化
　13.8　まとめ

第III部　さらに深く
第14章　心理学
　14.1　予測と制御
　14.2　古典的条件づけ
　14.3　道具的条件づけ
　14.4　遅延強化
　14.5　認知地図
　14.6　習慣行動と目標指向行動
　14.7　まとめ

第15章　神経科学
　15.1　神経科学の基礎
　15.2　報酬信号，強化信号，価値，予測誤差
　15.3　報酬予測誤差仮説
　15.4　ドーパミン
　15.5　報酬予測誤差仮説を支持する実験的事実
　15.6　TD誤差とドーパミンとの対応関係
　15.7　ニューラル・アクター・クリティック
　15.8　アクターとクリティックの学習則
　15.9　ヘドニスティックニューロン
　15.10　集団強化学習
　15.11　脳におけるモデルベース法
　15.12　依存症
　15.13　まとめ

第16章　応用と事例紹介
　16.1　TD-Gammon
　16.2　Samuelのチェッカープレイヤー
　16.3　Watsonによるデイリーダブルの賭け戦略
　16.4　メモリ制御の最適化
　16.5　人間レベルのビデオゲームプレイ
　16.6　囲碁の修得
　16.7　Webサービスのパーソナライズ
　16.8　サーマルソアリング

第17章　強化学習のこれから
　17.1　汎用価値関数と補助タスク
　17.2　オプションによる時間方向の抽象化
　17.3　観測と状態
　17.4　報酬信号の設計
　17.5　残された課題
　17.6　報酬予測誤差仮説の実験的支持

参考文献
索引

この記事が気に入ったらサポートをしてみませんか？