強化学習アルゴリズムは、報酬信号を使用しAIにそれがいつ上手だったか、下手だったかを言う。上手く出来た時、大きな正数を与え、大きな報酬を与える。下手だった時、負の報酬を与えるために負数を送る。報酬を最

2020年8月14日 10:11

強化学習アルゴリズムは、報酬信号を使用しAIにそれがいつ上手だったか、下手だったかを言う。上手く出来た時、大きな正数を与え、大きな報酬を与える。下手だった時、負の報酬を与えるために負数を送る。報酬を最大化させる行動をとることを自動的に学習するのがAIの仕事。

この記事が参加している募集

#習慣にしていること

134,824件

あきらめない、くじけない。毎日、インプット＆アウトプット。大人の手習い実行中！伸びしろがあると信じたい。サポートしていただけると嬉しいです。