気になったのでシュッと RetNet を調べてみた
ちゃっす(/・ω・)/
数日インターネッツから目を話していたらいろいろと新しいのがでていて( ゚∀゚)ウヒョー となっていた今日この頃
RetNet ってのが一部界隈?で盛り上がっていたので調べてみた、、、
という話(/・ω・)/
Retentive Network: A Successor to Transformer for Large Language Models
はい、論文でございますわね(/・ω・)/
久々に読み読みしましたでございます。
しかしそんなに文章量が多くなかったので嬉しい(*´▽`*)
What is RetNet?
で、こいつは何者なんだい(〇-〇ヽ)クイッ
はい。
ざっくりいうと Transformer (昨今の GPT 系で使われてるやつ)のより効率よくしたやつ、、、みたいですな(/・ω・)/
ユーモアを交えてまとめてもろた
スーパーヒーローのようなスピード:RetNetは、シーケンスをバッチに分割し、それらを並列に処理することができます。これはまるで、スーパーヒーローが同時に複数の場所で活動するようなものです。これにより、RetNetは大規模なデータセットの訓練を驚くほど速く行うことができます。
タイムトラベラーのような記憶力:RetNetのマルチスケールリテンション(MSR)は、シーケンス内の各単語が他の全ての単語とどのように関連しているかを捉えることができます。これはまるで、タイムトラベラーが過去と未来の情報を同時に持つようなものです。これにより、RetNetはシーケンスの理解を深めることができます。
マジシャンのようなトリック:RetNetは、再帰的な処理と並列処理を組み合わせることで、長いシーケンスでも効率的に処理できます。これはまるで、マジシャンが観客を驚かせるためのトリックのようなものです。これにより、RetNetは大量のデータを効率的に処理し、大規模なデータセットの訓練や長い文書の処理を可能にします。
テレビショッピングみたい( ・ω・)
しかしまぁ重要なポイントは押さえられているのだ(/・ω・)/
Transformer ちゃんの主要な困ったポイントをざっくりいうと
インプットした単語やらの関連性を一度に処理してた (Attention is All you need !!) ので処理が重たくなりがち
特に長い文章の場合だとそれが顕著
どうやって解決してますのん?
ほいだらどうやって RetNet で解決してますのん?( ・ω・)
と、なりますわな(/・ω・)/
ざくりというとこんな感じ
MSR(マルチスケールリテンション)というのを使って各単語間の関連性を一度に測らないようにした
長い入力の場合はある程度のサイズに分割するようにした
はい、一度に重たい処理をしなくていいようにして、並列で処理できるようにしたよー(/・ω・)/
てな感じ。
やはり RNN が返り咲くのであろうか( ・ω・)
ということで自分用にシュッとまとめたのでおしまい。
気になる方は実際に論文をみてみてね(/・ω・)/
この記事が気に入ったらサポートをしてみませんか?