強化学習アルゴリズムは、報酬信号を使用しAIにそれがいつ上手だったか、下手だったかを言う。上手く出来た時、大きな正数を与え、大きな報酬を与える。下手だった時、負の報酬を与えるために 負数を送る。報酬を最大化させる行動をとることを自動的に学習するのがAIの仕事。
画像1

この記事が参加している募集

あきらめない、くじけない。毎日、インプット&アウトプット。大人の手習い実行中!伸びしろがあると信じたい。 サポートしていただけると嬉しいです。