マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

#LLM

【論文紹介】複数トークン予測によるLLMの精度向上と高速化

Meta社の研究チーム(Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve)が発表した論文がXで話題になっていたので、ざっと眺めてみました。理解不足も多々あると思いますので、詳細は原文を参照願います。 複数トークン予測モデルの概要トレーニング:従来のTransformerベースのLLMでは、次の1トークンを予測する単純なタスクで学習が行われますが、今

【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

Transformerベースの言語モデルの内部動作を確認するためのツールを用いて各層の役割について解析する取り組みを行っている以下論文(Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small。うまく訳せませんが、「GPT-2 smallにおける間接目的語識別の解明:(学習から)自然発生するタスク処理の内部メカニズム」という感じでしょうか…)がとても面白か

【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

興味深い論文を見つけたので、ざっとまとめました。 私の理解不足は多々ありますので、興味を持たれた方はぜひ原文をご参照ください。 Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis 概要この研究では、大規模な言語モデルを実行するための新しいフレームワークであるStreamingLLMを提案しています。これは、従来のアプローチであるWindow attentionがテキストの長さがキャッシュサイズを超

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。 理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。 概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析した キーワード活性化しないニューロン(Dead Neurons) ネットワークの入力部付近の層では、多

論文紹介: 翻訳タスクでLLMは意味的な整合性も学習する

英語の学習データセットでプレトレーニングを行ったLLMを、翻訳タスクのデータセットでファインチューニングすることでの非英語の能力を強化する場合の効果を整理した論文が発表されていました。 詳しくは、リンク先を参照お願いします。 翻訳タスクをデータセットに加えることで、翻訳タスクに加えて意味的な整合性(セマンティック アライメント)も学習できる(Figure 1, 2) 翻訳タスクのデータを増やすことで、LLM内の意味の整合性が強化され性能が向上する(Figure 3)

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。 自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

Twitterのタイムラインで少し話題になっていた、Meta AIのメンバー主体で書かれた以下論文を、(話題についていきたいので😊)超ななめ読みしてみました。 1.概要通常、大規模言語モデルをトレーニングする場合、数千のGPU上の数十億のすべてのパラメータを同期させる必要があるため大きなコストが必要。 この解決策として、テキストコーパスを関連するドキュメントのセットに分割し、それぞれに対して独立した言語モデル(専門家モデル:Expert Language Models,

GPT4はMITの数学とCSの学位取得レベルの知識を持つ可能性がある

以下の論文が面白そうだったので、概要をななめ読みしてみました。 1.概要MITの学士号取得に必要な、数学、電気工学、およびコンピューターサイエンスの中間試験、期末試験の 4,550 問の問題と解答の包括的なデータセットを使用。 gpt-3.5はMITカリキュラムの1/3程度しか正解できませんでしたが(これでは落第ですね)、一方、gpt-4は、画像に基づく問題を除けば、すべての問題に正解できる能力が確認されました。(これなら主席卒業できるかもしれませんね!?) 今回の検討

【Arxiv論文】Gorilla: 多様なAPI群に接続する機能特化型LLM

ネット上の様々なAPIや機械学習モデルなどを活用するための機能特化型LLM:Gorillaの活用について、以下論文で提案されていました。 簡単に論文の概要を眺めてから、サンプルコードを動かしてみました。 Gorilla-7b-hf-v0 モデルの特徴LLaMA-7Bを、「TorchHub(94 APIコール)」、「TensorHub(696 APIコール)、HuggingFace(20モデル)の合計925の外部ツールについて、APIとAPIドキュメントから、Self-In