大規模言語モデル（LLM）

本

運営しているクリエイター: はまち

#自然言語処理

グアナコってなに？Guanaco: LLaMA 7B に基づく多言語モデルを試す

特徴LLaMA 7B モデルに基づいて構築された高度な命令に従う言語モデル Alpaca モデルの最初の 52K データセットを拡張し、追加の 534K+ エントリでトレーニング実施多言語対応：英語、簡体字中国語、繁体字中国語 (台湾)、繁体字中国語 (香港)、日本語、ドイツ語システムプロンプトとの正確な外部知識の統合マルチターン対話が可能ライセンスはgpl-3.0 Text-generation web UIの modelsフォルダーにモデルをコピーして

arxiv論文を読む：トランスフォーマーの入力トークン数をRMTで百万トークン以上にスケーリングする

Transformer技術の新たなブレイクスルーを予感する論文でしたので、再帰メモリトランスフォーマー拡張(RMT)による、Transformerの入力トークン数の拡張方法の論文の前半部分をまとめてみました。なお、論文後半の記憶タスクでの使用例や実験結果については、論文本文を参照ください。この技術は元の入力トークンをセグメント化して、別途保持するメモリーセグメントと合わせてトランスフォーマーの入力とすることで、入力トークンのサイズの制約を無くす画期的なアイデアのようで

大規模言語モデル（LLM）

フォローしませんか？

#自然言語処理

グアナコってなに？Guanaco: LLaMA 7B に基づく多言語モデルを試す

arxiv論文を読む：トランスフォーマーの入力トークン数をRMTで百万トークン以上にスケーリングする