マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

#GPT4

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

Twitterのタイムラインで少し話題になっていた、Meta AIのメンバー主体で書かれた以下論文を、(話題についていきたいので😊)超ななめ読みしてみました。 1.概要通常、大規模言語モデルをトレーニングする場合、数千のGPU上の数十億のすべてのパラメータを同期させる必要があるため大きなコストが必要。 この解決策として、テキストコーパスを関連するドキュメントのセットに分割し、それぞれに対して独立した言語モデル(専門家モデル:Expert Language Models,

GPT4はMITの数学とCSの学位取得レベルの知識を持つ可能性がある

以下の論文が面白そうだったので、概要をななめ読みしてみました。 1.概要MITの学士号取得に必要な、数学、電気工学、およびコンピューターサイエンスの中間試験、期末試験の 4,550 問の問題と解答の包括的なデータセットを使用。 gpt-3.5はMITカリキュラムの1/3程度しか正解できませんでしたが(これでは落第ですね)、一方、gpt-4は、画像に基づく問題を除けば、すべての問題に正解できる能力が確認されました。(これなら主席卒業できるかもしれませんね!?) 今回の検討