ほんのわずかな不確実さのもたらす決定的な差

2022年2月17日 11:41

いま流行りの AI 技術の基礎を学習している（CS50 AI コース@HarvardX）。

『Q 学習（ https://ja.wikipedia.org/wiki/Q学習）』と呼ばれる仕組みをつかって、”Nim” という石取りゲームの類を解いている（英文 wiki ではマッチ棒の取り合いになっている）。

この Nim は “misere (= misery)” なゲームだそうだ。

成程、10000 回も Q 学習で教師なし学習させてやれば、後手が 100 % 勝つ AI が育つ。

つまり 10000 回も試行して訓練すれば、コンピューターには十分な学習で、完全に打ち筋を読み切って後手必勝となる。

でも、此処にわずかな確率、たとえば 5% でもランダムな手を選択する不確実性を組み込んでやる（ε-Greedy 法のε= 0.05 と設定してやる）。

そうすると、結果の勝敗にドラスティックな変化が現れるのだ！！

ここから先は

1,591字

¥ 150

この記事が気に入ったらサポートをしてみませんか？