マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

#論文紹介

【論文紹介】複数トークン予測によるLLMの精度向上と高速化

Meta社の研究チーム(Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve)が発表した論文がXで話題になっていたので、ざっと眺めてみました。理解不足も多々あると思いますので、詳細は原文を参照願います。 複数トークン予測モデルの概要トレーニング:従来のTransformerベースのLLMでは、次の1トークンを予測する単純なタスクで学習が行われますが、今

【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

Transformerベースの言語モデルの内部動作を確認するためのツールを用いて各層の役割について解析する取り組みを行っている以下論文(Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small。うまく訳せませんが、「GPT-2 smallにおける間接目的語識別の解明:(学習から)自然発生するタスク処理の内部メカニズム」という感じでしょうか…)がとても面白か

1(.58)ビット量子化LLMs(BitNet b1.58)について

Microsoft Researchが発表した以下論文がXで話題になっていました。少々出遅れた感がありますが、さっそく眺めてみました。 BitNet b1.58全パラメータ(重み)を三項{-1, 0, 1}で量子化。{-1, 0, 1}の3つの値を表現するために必要なビット数は$${log_2​(3)}$$であるため、1パラメータあたり約1.58bitで表現できる。 同じモデルサイズとトレーニングトークンを持つ全精度(FP16またはBF16)のTransformer LL

【論文紹介】Meta社の強化学習Agentフレームワーク「Pearl」

meta社が強化学習Agentの実用向けのフレームワーク「Pearl」を公開していました。論文も投稿されていたので概要をまとめてみました。なお、私の理解不足も多々ありますので、詳細は論文本文ほかをご確認ください。 Pearlの概要「Pearl」は、エージェントが環境との相互作用を通じて最適な行動方針を学習する強化学習において、実世界の複雑な環境での効率的な学習、安全性の確保、そして動的な状況への適応能力を備えることを目標に開発されており、以下の特徴があります。 実用的なR

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。 理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。 概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析した キーワード活性化しないニューロン(Dead Neurons) ネットワークの入力部付近の層では、多

Stable Diffusionモデルを応用した超解像技術 DiffBIRを試す

テキストから画像への生成モデルであるStable Diffusionの事前学習モデルを活用して、劣化画像のブラインド画像復元タスク(超解像タスク)を行うDiffBIRというフレームワークが提案されています。サンプルコートも公開されているので早速試してみました。 DiffBIRはBSR(Blind Image Super-Resolution ブラインド画像復元)、およびBFR(Blind Face Restoration 顔画像の復元)の先行研究と比較して優れた結果を示して

論文紹介: 翻訳タスクでLLMは意味的な整合性も学習する

英語の学習データセットでプレトレーニングを行ったLLMを、翻訳タスクのデータセットでファインチューニングすることでの非英語の能力を強化する場合の効果を整理した論文が発表されていました。 詳しくは、リンク先を参照お願いします。 翻訳タスクをデータセットに加えることで、翻訳タスクに加えて意味的な整合性(セマンティック アライメント)も学習できる(Figure 1, 2) 翻訳タスクのデータを増やすことで、LLM内の意味の整合性が強化され性能が向上する(Figure 3)

論文紹介: AI の壊滅的なリスクの概要

以下論文「An Overview of Catastrophic AI Riskes」に目が留まったので、ななめ読みしました。 論点となる部分は書き留めたつもりですが、なにぶんななめ読みですので、この記事で雰囲気を掴んで、ぜひリンク先の原文もご確認ください。 著者Center for AI Safty 所属 Dan Hendrycks, Mantas Mazeika, Thomas Woodside 概要この論文は、人工知能(AI)の進歩がもたらす壊滅的なリスクについて

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

Twitterのタイムラインで少し話題になっていた、Meta AIのメンバー主体で書かれた以下論文を、(話題についていきたいので😊)超ななめ読みしてみました。 1.概要通常、大規模言語モデルをトレーニングする場合、数千のGPU上の数十億のすべてのパラメータを同期させる必要があるため大きなコストが必要。 この解決策として、テキストコーパスを関連するドキュメントのセットに分割し、それぞれに対して独立した言語モデル(専門家モデル:Expert Language Models,

AIと教育:ChatGPTを使ったレポート作成の実験

「和訳タイトル:人工人工AI: クラウドワーカーが広く使用するテキスト生成タスク用LLM」という変わったタイトルの以下の論文によれば、クラウドワーカーに文章の要約タスクを与えると、33%~46%の人がLLMを使用してラクをする(業務を自主的に効率化する)と推定されたそうです。 ほんまかいな、という気もしますが、人間はラクな方法が使える状況に置かれると、使うなと言われない限り、便利な道具を使うのは仕方がない気もします。(エクセル使える状況でも、あえて電卓をたたく殊勝なひともい

GPT4はMITの数学とCSの学位取得レベルの知識を持つ可能性がある

以下の論文が面白そうだったので、概要をななめ読みしてみました。 1.概要MITの学士号取得に必要な、数学、電気工学、およびコンピューターサイエンスの中間試験、期末試験の 4,550 問の問題と解答の包括的なデータセットを使用。 gpt-3.5はMITカリキュラムの1/3程度しか正解できませんでしたが(これでは落第ですね)、一方、gpt-4は、画像に基づく問題を除けば、すべての問題に正解できる能力が確認されました。(これなら主席卒業できるかもしれませんね!?) 今回の検討

MuseCoco: テキストに沿ったMIDIファイルを生成

以下論文が面白そうだったので、論文前半の構造の説明の部分をななめ読みしてみました。 1.MuseCoco概要MuseCoCo は、Music Composition Copilot(作曲 副操縦士) の略 テキストからMIDI形式(Symbolic Music)を生成する。MIDI形式での出力は、他の提案で公開させているオーディオの形で直接出力する方法よりも編集などが容易なので活用しやすい。 ユーザーが音楽知識がない場合は、第1ステージのモデルを使って直感的に記載したテ

WizardLM - より複雑な命令を自己生成して能力向上 Evol-Instruct

Evol-Instructという学習データ生成のアイデアを用いて、自己生成したデータでファインチューニングした「WizardLM」の紹介論文と、GitHubのREADME.mdをななめ読みしてみました。 LLaMAのファインチューニング系の高性能なLLMには、先日試してみたairobos-13bなどがありますが、airobosの場合は gpt-4 を蒸留して、いわば劣化コピーをつくっている感じなのに対して、こちらはEvol-Instruct のアイデアを使って自力で能力向上

画像セグメンテーション技術 SEEMとは?~arxiv論文「Segment Everything Everywhere All at Once」を読む

上記論文で提案された、マルチモーダルな画像セグメンテーション技術である「SEEM」の概要をまとめてみました。数学的な定義などは専門家にお任せして図表メインで説明します。なお、デモは以下で公開されており、ソースコードも近日中に公開されるとのことです。楽しみですね。 実行サンプルまず、特徴的な実行サンプルの紹介から トラック形態のオプティマスプライム(映画トランスフォーマーに登場する主人公というか指揮官の機械生命体)のトラックヘッドの画像にざっくり印(黄緑の線)をつけておくと、