第2版では大幅に増補し、全体の構成も変更している。第2版は、序章にあたる第1章のあと、新たに三つの部に分かれている。第I部(第2~8章)では、厳密な解が得られるテーブル形式の場合を超えない範囲で、できるだけ多くの強化学習を扱う。テーブル形式の場合の学習方法とプランニング方法だけでなく、$${ n }$$ステップ手法とDynaによるそれらの統合について取り上げる。第I部で紹介するアルゴリズムの多くは、UCBや、期待Sarsa法、二重学習、ツリー・バックアップアルゴリズム、$${ Q }$$(σ)法、RTDP、MCTSなど、第2版で新しく追加されたものである。テーブル形式の場合に最初に徹底的に取り組むことで、核となる考え方をできるだけ単純な設定で進めることができる。本書の第II部(第9~13章)は、こうした考え方を関数近似に拡張することに専念する。人工ニューラルネットワークや、フーリエ基底、LSTD、カーネルベース法、勾配TD法や強調TD法、平均報酬法、真のオンラインTD(λ)法、方策勾配法などについての、新しい節が追加されている。第2版では、方策オフ型学習についての扱いを大幅に拡張している。最初に第5~7章においてテーブル形式の場合で説明し、次に第11章と第12章で関数近似を用いた場合について説明している。もう一つの変更点として、第2版では前方観測的な見方である$${n}$$ステップ・ブートストラップと、後方観測的な見方である適格度トレースを分離している(第7章で前者について十分に扱ったあと、第12章で後者について個別に扱うことにした)。本書の第III部では、強化学習と心理学(第14章)や神経科学(第15章)との関係についての全般的な新しい章を追加した。また、ケーススタディの章(第16章)についても、Atariのゲームプレイや、Watsonの賭け戦略、AlphaGoやAlphaGo Zeroなどの囲碁プログラムなどを盛り込むことで新しくした。それでもやむを得ず、この分野で行われたすべての研究のうち、ごく一部しか載せなかった。ここでの選択は、我々が長年、幅広い応用に対応できる安価なモデルフリー手法に対して関心をもっていることを反映している。最後の章では、強化学習が将来的に社会に与える影響に関する議論を行う。結果として、よくも悪くも、第2版は第1版の約2倍の量と多くなっている。
本書は、強化学習の1学期制または2学期制のコースの主要テキストとして使用することを想定している。1学期制のコースの場合は、核心をつかむために、最初の10章を順番にカバーする必要がある。これに好みに応じて、他の章や、Bertsekas、Tsitsiklis(1996)、Wiering, van Otterlo(2012)、Szepesvari(2010)などの他の本や文献の内容を追加してもよい。学生のバックグラウンドに応じて、オンライン教師あり学習に関する追加資料も役立つかもしれない。オプションやオプションモデルのアイディアを追加するのもよいだろう(Sutton,Precup,Singh,1999)。2学期制のコースであれば、本書のすべての章を補足部分も含めて網羅できる。また本書は、機械学習や人工知能、ニューラルネットワークに関するより広範な講義の一部として利用することもできる。この場合、本書の内容の一部だけを扱うことが望ましい。第1章で簡単な概要を理解したあと、第2章の2.4節まで、そして第3章と読み進めて、時間と興味に応じて残りの章の節を選択することをお勧めする。第6章は本書の主題と残りの章を理解する上で最も重要である。機械学習やニューラルネットワークに焦点を当てた講義では第9章と第10章を、人工知能やプランニングに焦点を当てたコースでは第8章を取り上げるのがよい。本書全体を通して、比較的難しく、本書の残りの部分を理解するのにあまり重要ではない節や章には*印をつけている。これらについては、最初に読むときに飛ばしても、あとで問題となることはない。練習問題にも*印がついていることがあるが、これはより高度な内容であり、各章の基本的な内容の理解にそれほど重要ではないことを示している。