マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

#AI

1(.58)ビット量子化LLMs(BitNet b1.58)について

Microsoft Researchが発表した以下論文がXで話題になっていました。少々出遅れた感がありますが、さっそく眺めてみました。 BitNet b1.58全パラメータ(重み)を三項{-1, 0, 1}で量子化。{-1, 0, 1}の3つの値を表現するために必要なビット数は$${log_2​(3)}$$であるため、1パラメータあたり約1.58bitで表現できる。 同じモデルサイズとトレーニングトークンを持つ全精度(FP16またはBF16)のTransformer LL

古い白黒写真をリアルにカラー化🎨DDColorを試す

学習可能なカラー トークン(つまり、カラー クエリ) を最適化することで、グレースケール画像をリアルなカラー画像をエンドツーエンドで変換する、「DDColor」というモデルが公表されていたので試してみました。 モデル概要まず始めに、画像から重要な情報を抜き出すための「Backbone network」を使い特徴抽出を行います。 次に、この情報を「Pixcel Decoder」に送り、画像の空間構造を復元します。同時に、「Color Decoder」は画像のさまざまな大きさ

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。 理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。 概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析した キーワード活性化しないニューロン(Dead Neurons) ネットワークの入力部付近の層では、多

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。 自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

論文紹介: AI の壊滅的なリスクの概要

以下論文「An Overview of Catastrophic AI Riskes」に目が留まったので、ななめ読みしました。 論点となる部分は書き留めたつもりですが、なにぶんななめ読みですので、この記事で雰囲気を掴んで、ぜひリンク先の原文もご確認ください。 著者Center for AI Safty 所属 Dan Hendrycks, Mantas Mazeika, Thomas Woodside 概要この論文は、人工知能(AI)の進歩がもたらす壊滅的なリスクについて

Meta 「ImageBind」公開! 百聞は一見に如かずを実装した マルチモーダルAIの概要

Meta社がオープンソースとして公開した、マルチモーダルなAIモデル「ImageBind」が、どんなアイデアで作られたのか調べてみました。 ImageBindとは「テキスト」、「画像および動画」、「音声」、「深度(3D)」、「熱(赤外線)」、「慣性測定装置(IMU)のデータ」の6種類のモダリティ情報を単一の結合埋め込み空間へ統合した、いわゆるマルチモーダルAIの実現に向けた技術デモンストレーションのモデルです。 ここがポイント!今までの常識 多数のモーダルを含むマルチモ

Arxiv論文:自分でツールを作って再利用するLLMのコンセプト(LATM)

以下論文が面白げでした。 論文で提案されたコンセプトをデモするノートブックも用意されているので、興味がある方は実際に動かしてみても面白いと思います。 論文の概要大規模言語モデル(LLM)の問題解決能力を向上させるための新しいフレームワーク、LLMs As Tool Makers(LATM)を提案する。このフレームワークは、LLM自体が問題解決のための再利用可能なツールを作成する。 LATMのアプローチは「ツール作成」フェーズと「ツール使用」フェーズの2つから成り立ち、それ