論文を読む｜はまち

【論文紹介】複数トークン予測によるLLMの精度向上と高速化

Meta社の研究チーム（Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve）が発表した論文がXで話題になっていたので、ざっと眺めてみました。理解不足も多々あると思いますので、詳細は原文を参照願います。複数トークン予測モデルの概要トレーニング：従来のTransformerベースのLLMでは、次の１トークンを予測する単純なタスクで学習が行われますが、今

【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

Transformerベースの言語モデルの内部動作を確認するためのツールを用いて各層の役割について解析する取り組みを行っている以下論文（Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small。うまく訳せませんが、「GPT-2 smallにおける間接目的語識別の解明：（学習から）自然発生するタスク処理の内部メカニズム」という感じでしょうか…）がとても面白か

1(.58)ビット量子化LLMs(BitNet b1.58）について

Microsoft Researchが発表した以下論文がXで話題になっていました。少々出遅れた感がありますが、さっそく眺めてみました。 BitNet b1.58全パラメータ（重み）を三項{-1, 0, 1}で量子化。{-1, 0, 1}の3つの値を表現するために必要なビット数は$${log_2(3)}$$であるため、1パラメータあたり約1.58bitで表現できる。同じモデルサイズとトレーニングトークンを持つ全精度（FP16またはBF16）のTransformer LL

古い白黒写真をリアルにカラー化🎨DDColorを試す

学習可能なカラートークン(つまり、カラークエリ) を最適化することで、グレースケール画像をリアルなカラー画像をエンドツーエンドで変換する、「DDColor」というモデルが公表されていたので試してみました。モデル概要まず始めに、画像から重要な情報を抜き出すための「Backbone network」を使い特徴抽出を行います。次に、この情報を「Pixcel Decoder」に送り、画像の空間構造を復元します。同時に、「Color Decoder」は画像のさまざまな大きさ

【論文紹介】Meta社の強化学習Agentフレームワーク「Pearl」

meta社が強化学習Agentの実用向けのフレームワーク「Pearl」を公開していました。論文も投稿されていたので概要をまとめてみました。なお、私の理解不足も多々ありますので、詳細は論文本文ほかをご確認ください。 Pearlの概要「Pearl」は、エージェントが環境との相互作用を通じて最適な行動方針を学習する強化学習において、実世界の複雑な環境での効率的な学習、安全性の確保、そして動的な状況への適応能力を備えることを目標に開発されており、以下の特徴があります。実用的なR

【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

興味深い論文を見つけたので、ざっとまとめました。私の理解不足は多々ありますので、興味を持たれた方はぜひ原文をご参照ください。 Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis 概要この研究では、大規模な言語モデルを実行するための新しいフレームワークであるStreamingLLMを提案しています。これは、従来のアプローチであるWindow attentionがテキストの長さがキャッシュサイズを超

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析したキーワード活性化しないニューロン（Dead Neurons）ネットワークの入力部付近の層では、多

Stable Diffusionモデルを応用した超解像技術 DiffBIRを試す

テキストから画像への生成モデルであるStable Diffusionの事前学習モデルを活用して、劣化画像のブラインド画像復元タスク（超解像タスク）を行うDiffBIRというフレームワークが提案されています。サンプルコートも公開されているので早速試してみました。 DiffBIRはBSR（Blind Image Super-Resolution ブラインド画像復元）、およびBFR（Blind Face Restoration 顔画像の復元）の先行研究と比較して優れた結果を示して

論文紹介: 翻訳タスクでLLMは意味的な整合性も学習する

英語の学習データセットでプレトレーニングを行ったLLMを、翻訳タスクのデータセットでファインチューニングすることでの非英語の能力を強化する場合の効果を整理した論文が発表されていました。詳しくは、リンク先を参照お願いします。翻訳タスクをデータセットに加えることで、翻訳タスクに加えて意味的な整合性（セマンティックアライメント）も学習できる（Figure 1, 2）翻訳タスクのデータを増やすことで、LLM内の意味の整合性が強化され性能が向上する（Figure 3）

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

論文紹介: AI の壊滅的なリスクの概要

以下論文「An Overview of Catastrophic AI Riskes」に目が留まったので、ななめ読みしました。論点となる部分は書き留めたつもりですが、なにぶんななめ読みですので、この記事で雰囲気を掴んで、ぜひリンク先の原文もご確認ください。著者Center for AI Safty 所属　Dan Hendrycks, Mantas Mazeika, Thomas Woodside 概要この論文は、人工知能（AI）の進歩がもたらす壊滅的なリスクについて

商用LLMに肉薄する「vicuna-33b-v1.3」と、チャットLLM用のベンチマーク手法の話題

今まで13bサイズが最大だった Vicuna の33bのウェイトが公開されました。また、主要なモデルとのベンチマーク結果も公表されています。ベンチマーク結果ここで、見慣れないMT-benchという評価指標がありますが、Vicuna-33Bのブログ報告によれば、人間の好みにより則したチャットボットLLM のベンチマークとのことです。大規模言語モデル（LLM）のパフォーマンスを評価するためのいくつかのベンチマークが存在しますが、これらのベンチマークはLLMの人間の好みを評価

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

Twitterのタイムラインで少し話題になっていた、Meta AIのメンバー主体で書かれた以下論文を、（話題についていきたいので😊）超ななめ読みしてみました。１．概要通常、大規模言語モデルをトレーニングする場合、数千のGPU上の数十億のすべてのパラメータを同期させる必要があるため大きなコストが必要。この解決策として、テキストコーパスを関連するドキュメントのセットに分割し、それぞれに対して独立した言語モデル（専門家モデル：Expert Language Models,

AIと教育：ChatGPTを使ったレポート作成の実験

「和訳タイトル：人工人工AI: クラウドワーカーが広く使用するテキスト生成タスク用LLM」という変わったタイトルの以下の論文によれば、クラウドワーカーに文章の要約タスクを与えると、33％～46％の人がLLMを使用してラクをする（業務を自主的に効率化する）と推定されたそうです。ほんまかいな、という気もしますが、人間はラクな方法が使える状況に置かれると、使うなと言われない限り、便利な道具を使うのは仕方がない気もします。（エクセル使える状況でも、あえて電卓をたたく殊勝なひともい

論文を読む

フォローしませんか？

記事一覧