Alpha Go

。・Alpha Go:近年のニューラルネットワーク強化学習の集大成の一つである。方策ネットワークと評価ネットワークに分かれる。

方策ネットワーク

画像1

評価ネットワーク

画像2

Policy Net、ValueNetの入力

画像3

Roll Out Policy:NNではなく線形の方策関数探索中に高速に着手確率を出すために使用される

画像4

赤字の特徴はRollOut時には使用されず、TreePolicyの初期値として使用されるときに使われる。上記の特徴が19×19マス分あり、出力はそのマスの着手予想確率となる

・AlphaGoの学習: 1)教師あり学習によるRollOutPolicyとPolicyNetの学習、2)強化学習によるPolicyNetの学習、3)強化学習によるValueNetの学習

画像5

・PolicyNetの教師あり学習:KGS Go Server(ネット囲碁対局サイト)の棋譜データから3000万局面分の教師を用意し、教師と同じ着手を予測できるよう学習を行った。具体的には、教師と同じ手を打ったのを1とし、残りを0とした19×19次元の配列、それを分類問題として学習した。この学習で作成したPolicyNetは57%ほどの精度である。

・PolicyNetの強化学習:PolicyPoolとは、PolicyNetの強化学習の過程を500Iteraionごとに記録し保存しておいたものである。現状のPolicyNetとPolicyPoolからランダムに選択されたPolicyNetと対局シミュレーションを行い、その結果を用いて方策勾配法で学習を行った。現状のPolicyNet同士の対局ではなく、PolicyPoolに保存されているものとの対局を使用する理由は、対局に幅を持たせて過学習を防ごうというのが主である。この学習をminibatch size 128で1万回行った。

・ValueNetの学習:PolicyNetを使用して対局シミュレーションを行い、その結果の勝敗を教師として学習した。

教師データ作成の手順は

1、まず教師あり学習で作成したPolicyNetでN手まで打つ。

2、N+1手目の手をランダムに選択し、その手で進めた局面をS(N+1)とする。

3、S(N+1)から強化学習で作成したPolicyNetで終局まで打ち、その勝敗報酬をRとする。

S(N+1)とRを教師データのペアとし、損失関数を平均二乗誤差とし、回帰問題として学習した。この学習をminibatch size 32で5000万回行ったN手までとN+1手からのPolicyNetを別々にしてある理由は、過学習を防ぐためである

・モンテカルロ木探索:モンテカルロ法を使った木の探索アルゴリズムである。主要な利用例は、コンピュータ囲碁・チェス・将棋などのゲームプレイの手を決定する。リアルタイムPCゲームや、大富豪、ポーカーなどの相手の手の内が全て分からないゲームへも使用される。

・Alpha Go (Lee) のモンテカルロ木探索:選択、評価、バックアップ、成長という4つのステップで構成される。

画像6

・AlphaGoZero:1)教師あり学習を一切行わず、強化学習のみで作成、2)特徴入力からヒューリスティックな要素を排除し、石の配置のみにした、3)PolicyNetとValueNetを1つのネットワークに統合した、4)Resnetを導入した、5)モンテカルロ木探索からRollOutシミュレーションをなくした。

・Alpha Go ZeroのPolicyValueNet:

画像7

・Alpha Go Zeroの学習:自己対局による教師データの作成、学習、ネットワークの更新の3ステップで構成される

自己対局による教師データの作成:現状のネットワークでモンテカルロ木探索を用いて自己対局を行う。まず30手までランダムで打ち、そこから探索を行い勝敗を決定する。自己対局中の各局面での着手選択確率分布と勝敗を記録する。教師データの形は(局面、着手選択確率分布、勝敗)が1セットとなる。

学習:自己対局で作成した教師データを使い学習を行う。NetworkのPolicy部分の教師に着手選択確率分布を用い、Value部分の教師に勝敗を用いる。損失関数はPolicy部分はCrossEntropy、Value部分は平均二乗誤差。

ネットワークの更新:学習後、現状のネットワークと学習後のネットワークとで対局テストを行い、学習後のネットワークの勝率が高かった場合、学習後のネットワークを現状のネットワークとする。

考察

・近年で最も驚くAIと言えばAlpha Goである。人間に絶対勝てないゲームがAIが簡単に凌駕した。その後、人間の知識を一切使わないAlpha Go ZeroがさらにAlpha Goを負かしたことが、人間が積み上げた囲碁理論をまるで全般否定したかのように思わせた。囲碁の理においてはAIのほうが上であることはもはやまぎれもない事実であるが人間と違い、その知識を人間がわかるように解釈がまだできない。XAIが流行りだすのはその流れでもある。

この記事が気に入ったらサポートをしてみませんか?