気になったのでシュッと RetNet を調べてみた
ちゃっす(/・ω・)/
数日インターネッツから目を話していたらいろいろと新しいのがでていて( ゚∀゚)ウヒョー となっていた今日この頃
RetNet ってのが一部界隈?で盛り上がっていたので調べてみた、、、
という話(/・ω・)/
Retentive Network: A Successor to Transformer for Large Language Models
はい、論文でございますわね(/・ω・)/
久々に読み読みしましたでございます。
しかしそんなに文章量が多くなかったので嬉しい(*´▽`*)
What is RetNet?
で、こいつは何者なんだい(〇-〇ヽ)クイッ
はい。
ざっくりいうと Transformer (昨今の GPT 系で使われてるやつ)のより効率よくしたやつ、、、みたいですな(/・ω・)/
ユーモアを交えてまとめてもろた
テレビショッピングみたい( ・ω・)
しかしまぁ重要なポイントは押さえられているのだ(/・ω・)/
Transformer ちゃんの主要な困ったポイントをざっくりいうと
インプットした単語やらの関連性を一度に処理してた (Attention is All you need !!) ので処理が重たくなりがち
特に長い文章の場合だとそれが顕著
どうやって解決してますのん?
ほいだらどうやって RetNet で解決してますのん?( ・ω・)
と、なりますわな(/・ω・)/
ざくりというとこんな感じ
MSR(マルチスケールリテンション)というのを使って各単語間の関連性を一度に測らないようにした
長い入力の場合はある程度のサイズに分割するようにした
はい、一度に重たい処理をしなくていいようにして、並列で処理できるようにしたよー(/・ω・)/
てな感じ。
やはり RNN が返り咲くのであろうか( ・ω・)
ということで自分用にシュッとまとめたのでおしまい。
気になる方は実際に論文をみてみてね(/・ω・)/