マガジンのカバー画像

大規模言語モデル(LLM)

37
運営しているクリエイター

#大規模言語モデル

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。 自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

Twitterのタイムラインで少し話題になっていた、Meta AIのメンバー主体で書かれた以下論文を、(話題についていきたいので😊)超ななめ読みしてみました。 1.概要通常、大規模言語モデルをトレーニングする場合、数千のGPU上の数十億のすべてのパラメータを同期させる必要があるため大きなコストが必要。 この解決策として、テキストコーパスを関連するドキュメントのセットに分割し、それぞれに対して独立した言語モデル(専門家モデル:Expert Language Models,

グアナコってなに?Guanaco: LLaMA 7B に基づく多言語モデルを試す

特徴LLaMA 7B モデルに基づいて構築された高度な命令に従う言語モデル Alpaca モデルの最初の 52K データセットを拡張し、追加の 534K+ エントリでトレーニング実施 多言語対応:英語、簡体字中国語、繁体字中国語 (台湾)、繁体字中国語 (香港)、日本語、ドイツ語 システムプロンプトとの正確な外部知識の統合 マルチターン対話が可能 ライセンスはgpl-3.0 Text-generation web UIの modelsフォルダーにモデルをコピーして