6-4.ディープラーニングの詳細な説明(深層強化学習等)
強化学習では、環境と学習目的を設定する必要があります。環境は、状態、行動、報酬、遷移確率などを含みます。エージェントは、最適な行動を選択するために「状態」を学習します。選択された行動によって、エージェントは「報酬」を得ます。報酬に基づいて、エージェントは、学習目的に近づくための行動選択を改善します。また、その際に利用されるエージェントが持つ行動選択のルールは「方策」と呼ばれます。以下に、強化学習の各手法を解説していきます。
①Q学習
②ε-greedy方策
③SARSA
④深層強化学習の補足
⑤DQNの拡張手法
⑥敵対的攻撃
⑦A3C
⑧事前学習(pre-trainimg)モデル
- GPT
- BERT
⑨ノイジーネットワーク
⑩Rainbow
⑪ドメインランダマイゼーション
①Q学習(Q値=価値関数)
Q学習は、TD(Temporal Difference learning)学習の1つでQ値(価値関数)ベースの強化学習法である。Q値とは、ある状態のときにとった行動の価値を、Qテーブルと呼ばれるテーブルで管理し、行動するごとにQ値を更新していく方法である。実行するルールに対して、そのルールの有効性を示すQ値という値を持たせ、エージェントが行動するたびにその値を更新する。
②ε-greedy方策
ε-greedy方策とは、Q学習などで用いられる方法であり、ランダムに行動を選ぶ(探索)と報酬平均が最高な行動を選ぶ(活用)を繰り返し、探索と活用のバランスを取りながら累積報酬の最大化を目指します。εがハイパーパラメータなので、これをうまく調節することが重要となってきます。また、探索が行われる確率が固定されているため、いつまで経っても探索がランダムに起きる問題があります。
③SARSA
SARSA(State-Action-Reward-State-Action)は、強化学習の一種であり、価値ベースの手法の一つです。SARSAは、エージェントが状態と行動のペア(State-Action)を評価し、それに基づいて行動を選択することを学習します。SARSAのアルゴリズムでは、エージェントが環境とやり取りをしながら、状態を観測し、行動を選択し、報酬を受け取り、再び新たな状態に遷移します。この遷移の際に得られた新しい状態と行動のペアを評価し、次の行動選択に利用します。
具体的な手順としては、以下のようになります:
この記事が気に入ったらサポートをしてみませんか?