論文を読む

本

気になった論文などを読んでまとめ

運営しているクリエイター: はまち

#大規模言語モデル

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

Twitterのタイムラインで少し話題になっていた、Meta AIのメンバー主体で書かれた以下論文を、（話題についていきたいので😊）超ななめ読みしてみました。１．概要通常、大規模言語モデルをトレーニングする場合、数千のGPU上の数十億のすべてのパラメータを同期させる必要があるため大きなコストが必要。この解決策として、テキストコーパスを関連するドキュメントのセットに分割し、それぞれに対して独立した言語モデル（専門家モデル：Expert Language Models,