マガジンのカバー画像

大規模言語モデル(LLM)

34
運営しているクリエイター

2023年4月の記事一覧

Gpt-3.5-turboレベルのLLMをローカルマシンで! Vicuna-13b-v1.1を試す。

By Papermaker - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=71995777 Vicunaは、ShareGPTから収集されたユーザー共有会話でLLaMAを微調整することによって訓練されたオープンソースのチャットボットです。バージョンがv0からv1.1になったことで、教師あり微調整損失の計算を修正してモデル品質を向上させたとのことです。 手順 手元のLLaM

グアナコってなに?Guanaco: LLaMA 7B に基づく多言語モデルを試す

特徴LLaMA 7B モデルに基づいて構築された高度な命令に従う言語モデル Alpaca モデルの最初の 52K データセットを拡張し、追加の 534K+ エントリでトレーニング実施 多言語対応:英語、簡体字中国語、繁体字中国語 (台湾)、繁体字中国語 (香港)、日本語、ドイツ語 システムプロンプトとの正確な外部知識の統合 マルチターン対話が可能 ライセンスはgpl-3.0 Text-generation web UIの modelsフォルダーにモデルをコピーして

arxiv論文を読む:トランスフォーマーの入力トークン数をRMTで百万トークン以上にスケーリングする

Transformer技術の新たなブレイクスルーを予感する論文でしたので、再帰メモリトランスフォーマー拡張(RMT)による、Transformerの入力トークン数の拡張方法の論文の前半部分をまとめてみました。 なお、論文後半の記憶タスクでの使用例や実験結果については、論文本文を参照ください。 この技術は元の入力トークンをセグメント化して、別途保持するメモリーセグメントと合わせてトランスフォーマーの入力とすることで、入力トークンのサイズの制約を無くす画期的なアイデアのようで

さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す

StableVicunaの概要非商用ライセンス 高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。 具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整(SFT)により訓練しています: OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの