企画職向けDL論文解説：Transformerを使った強化学習：Decision Transformer: Reinforcement Learning via Sequence Modeling

2021年8月24日 23:55

企画職の為のディープラーニングの論文解説です。DLの概要理解を通してAIのビジネス活用企画を立案する事を目的としておりDL専門家視点では細かな間違いが含まれている可能性があります。

要点

強化学習の時系列処理にTransformer（causal transformer）という2021年時点で流行りの高速高性能時系列処理パーツを使ったよ。そうする事で、長い時系列データに対しても良い結果が出たよ。

強化学習とは？

コンピューターが自身で試行錯誤しながらゲームをプレイして上達したり、ロボットを動かして上手に物をつかめるようにしたりする事の手法を強化学習と言います。試行錯誤は基本的には最初はランダムな動きをしながら上手くいった場合を学習していくような事をひたすら繰り返すことで、いつの間にか人間をも超えるまでに学習が進みます。囲碁のチャンピオンを倒した「AlphaGo」も強化学習です。

Transformerとは？

時系列データの処理の手法で、2021年現在流行りの方法（ニューラルネットワークの構造）です。従来は、RNNやLSTMが主流でしたが、Transformerが考案されてからは、圧倒的に性能が良く、スピードも速いため、Transformerが重宝されています。

時系列データとは、例えば文章は時系列データです。「首都高で綺麗な景色を見ながらドライブする」という文章は、「首」の文字の次に「都」がきて、「高」が続きます。このようにデータが時系列に並んでいます。インターネットのアクセスログをディープラーニングで処理する際も時系列データとして処理できます。何にアクセスして、次にどこにアクセスし、その次に何をしたか、という時系列データです。

この論文ではどうやって検証しているのか？

いくつかのゲームのプレイなどをTransformerベースの強化学習を行って、そのゲームのスコアなどを従来方式と競っています。

具体的には、ATARIのBreakOutなど、OpenAIGymのHalfCheetahなど、Key-To-Doorタスクをプレイさせています。

当論文、Decision Transformerのミソは？

以下、詳細はこちらをご覧ください。

この記事が気に入ったらサポートをしてみませんか？