大規模言語モデル（LLM）

本

運営しているクリエイター: はまち

#大規模言語モデル

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

Twitterのタイムラインで少し話題になっていた、Meta AIのメンバー主体で書かれた以下論文を、（話題についていきたいので😊）超ななめ読みしてみました。１．概要通常、大規模言語モデルをトレーニングする場合、数千のGPU上の数十億のすべてのパラメータを同期させる必要があるため大きなコストが必要。この解決策として、テキストコーパスを関連するドキュメントのセットに分割し、それぞれに対して独立した言語モデル（専門家モデル：Expert Language Models,

グアナコってなに？Guanaco: LLaMA 7B に基づく多言語モデルを試す

特徴LLaMA 7B モデルに基づいて構築された高度な命令に従う言語モデル Alpaca モデルの最初の 52K データセットを拡張し、追加の 534K+ エントリでトレーニング実施多言語対応：英語、簡体字中国語、繁体字中国語 (台湾)、繁体字中国語 (香港)、日本語、ドイツ語システムプロンプトとの正確な外部知識の統合マルチターン対話が可能ライセンスはgpl-3.0 Text-generation web UIの modelsフォルダーにモデルをコピーして

大規模言語モデル（LLM）

フォローしませんか？

#大規模言語モデル

最大16k トークンをサポートするLongChat-7B/13B

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

グアナコってなに？Guanaco: LLaMA 7B に基づく多言語モデルを試す