マガジンのカバー画像

大規模言語モデル(LLM)

36
運営しているクリエイター

#自然言語処理

グアナコってなに?Guanaco: LLaMA 7B に基づく多言語モデルを試す

特徴LLaMA 7B モデルに基づいて構築された高度な命令に従う言語モデル Alpaca モデルの最初の 52K データセットを拡張し、追加の 534K+ エントリでトレーニング実施 多言語対応:英語、簡体字中国語、繁体字中国語 (台湾)、繁体字中国語 (香港)、日本語、ドイツ語 システムプロンプトとの正確な外部知識の統合 マルチターン対話が可能 ライセンスはgpl-3.0 Text-generation web UIの modelsフォルダーにモデルをコピーして

arxiv論文を読む:トランスフォーマーの入力トークン数をRMTで百万トークン以上にスケーリングする

Transformer技術の新たなブレイクスルーを予感する論文でしたので、再帰メモリトランスフォーマー拡張(RMT)による、Transformerの入力トークン数の拡張方法の論文の前半部分をまとめてみました。 なお、論文後半の記憶タスクでの使用例や実験結果については、論文本文を参照ください。 この技術は元の入力トークンをセグメント化して、別途保持するメモリーセグメントと合わせてトランスフォーマーの入力とすることで、入力トークンのサイズの制約を無くす画期的なアイデアのようで