さて、Twitter で AI 界隈の情報を眺めているとなにやら RWKV(Receptance Weighted Key Value) の論文がでてると話題になっていました。
あー、RWKV(ルワクフ)ね。
うん。知ってる知ってる。
名前だけはね、、、
Transformer までは知ってたけど RWKV はわからん!( ゚Д゚)
ということで論文を DeepL でシュッと見つつ ChatGPT4 大先生に聞きながら自分なりに解釈したので書いておく。
※私はまだまだデータサイエンス初学者なので解釈を違えている可能性があります
というエクスキューズをいれたのでシュッと書いていく。
他のモデルと何がちゃいますのん?
RWKV を調べる中でよく比較対象として Transformer と RNN(Recurrent Neural Networks)が登場します。
特に Transformer は GPT にも使われていたりと大人気モデルです。
それに対して何が違うのか?
教えて! ChatGPT 先生!
流石先生、、、!!
わかりやすい、、、!!
駄菓子菓子、どうやってその力を得たのでしょう?
スーパーヒーローの力には代償が伴う、、、
ふむふむ。なるほどね。(なんもわからん)( ゚д゚)
助けてスーパーヒーロー!!
ふむ。要するに時系列とアテンションをいい感じで使いこなしているわけね。
アテンションといえば Transformer
ということで RWKV との比較を改めて教えてもらいましょう。
うん?RWKV は Tranformer と比べてアテンション機能が弱い、、、ということかしら?
なるほどですねぇ。アテンションではなくレセプタンスが RWKV のキーワードなわけですね。
Transformer に比べて計算効率がいい?
まさかそんなうまい話があるはずが、、、
ここちょっとわかりにくいですね。
でも論文に乗っている図を見るとわかりやすいです。
https://arxiv.org/pdf/2305.13048.pdf
要するに時間軸をちょっとずつずらして並列処理できるわけですね!
かつ、Transformer とは違い直前の情報しか受け取らないので処理が速い!
しかし、図の Time Mix と Channel Mix ってなんじゃろ?
にゃるほど!!
ということで後半雑になりましたが自分としてはある程度理解、アウトプットができたので良しとします。
シュッとするのが目的だからね。
では、おしまい。