arXiv collection: August 20, 2024
Discovering Preference Optimization Algorithms with and for Large Language Models
目的:
この論文では、様々な評価指標を用いて、大規模言語モデル(LLMs)の性能を評価し、新たな目的関数を発見することを目指しています。
背景:
大規模言語モデルの発展に伴い、その性能を正確に評価し、さらなる改善を図るための新しい手法の開発が求められています。特に、一貫性のある評価基準とモデル間での比較可能性の向上が重要視されています。
新規性:
Alpaca Eval 2.0を用いた新しい評価方法の提案や、IMDbデータセットを使用した感情分析に基づくテキスト生成の評価など、既存の評価手法を拡張し、より詳細なモデルの性能評価を可能にする点に新規性があります。
方法:
Alpaca Eval 2.0を使用して、GPT-4 TurboなどのLLMの性能を評価します。
様々なデータセットを用いて、モデルが生成したテキストの品質を評価するためのカスタムデータセットを作成します。
感情分析を用いたテキスト生成では、事前訓練された感情分類器を報酬スコアリングとして使用し、KLダイバージェンスを計算してモデルの性能を評価します。
限界:
評価方法が一部のモデルやタスクに特化しているため、全ての言語モデルやタスクに対して最適とは限らない。
人間のアノテーションに依存する部分があるため、主観性が結果に影響を与える可能性があります。
計算資源が大量に必要となるため、実行には高いコストがかかる。
Entry ID:
http://arxiv.org/abs/2406.08414v1
Published:
June 12, 2024
Title:
Discovering Preference Optimization Algorithms with and for Large Language Models
Authors:
Chris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange
An Empirical Study of Mamba-based Language Models
目的:
この論文の主な目的は、Mamba、Mamba-2、Mamba-2-Hybrid(Mamba-2、注意層、MLP層を含む)とTransformerモデル間での比較を行い、大規模トレーニングデータセット上での8Bパラメータモデルの性能を評価することです。
背景:
構造化状態空間モデル(Structured State Space Models、SSM)は、自己注意層やTransformerに代わる有望な代替手段として提案されています。これらは推論時に一定の計算とメモリしか必要とせず、トレーニング中にハードウェア対応のアルゴリズムを使用して効率的に計算できるとされています。
新規性:
この研究は、MambaベースのモデルとTransformerモデルを同じトレーニングデータ、パラメータ数で直接比較することにより、これまでにないリガラスな比較を実現しています。特に、Mamba-2-Hybridモデルは、Mamba-2、自己注意層、MLP層の混合を特徴としており、これが標準および長論文の自然言語タスクでのTransformerモデルとの比較においてどのように機能するかを評価しています。
方法:
著者は、35の人気のある下流の言語モデリングタスクでモデルを評価し、MambaベースとTransformerモデルの評価セットアップを完全に同一に保持しています。また、16Kおよび32Kの論文長をサポートするために、Mamba-2-Hybridおよび対応するTransformerモデルの長論文拡張を研究しています。
限界:
SSMベースのモデルは、標準のMMLUやPhonebookタスクなど、論文からの情報を記憶して呼び出すことに関して、Transformerモデルに比べて苦戦していることが確認されています。また、ハイブリッドモデルはプロンプトのフォーマットに対して敏感である可能性があり、細かなプロンプトの変更が結果に大きく影響することが示されています。
Entry ID:
http://arxiv.org/abs/2406.07887v1
Published:
June 12, 2024
Title:
An Empirical Study of Mamba-based Language Models
Authors:
Roger Waleffe, Wonmin Byeon, Duncan Riach, Brandon Norick, Vijay Korthikanti, Tri Dao, Albert Gu, Ali Hatamizadeh, Sudhakar Singh, Deepak Narayanan, Garvit Kulshreshtha, Vartika Singh, Jared Casper, Jan Kautz, Mohammad Shoeybi, Bryan Catanzaro
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
目的:
Samba 1.7BモデルとMistral 1.6Bモデルの指示調整を通じて、文書中の特定の位置に挿入されたパスキーを生成して取得する能力を評価する。
長い文書における情報の取得能力を向上させるアーキテクチャの開発と評価。
背景:
大規模な言語モデルが長い文書にわたる情報の取得と処理において困難を抱えていることが知られている。
既存のモデルでは、長い文書の特定の情報を正確に取り出すことができない場合がある。
この問題を解決するために、新しいアーキテクチャや学習方法の開発が求められている。
新規性:
Samba 1.7Bモデルは、特定の指示に従って文書から情報を取得する能力において、従来のMistral 1.6Bモデルよりも優れた性能を示す。
指示調整を通じてモデルの情報取得能力を向上させる新たな手法を提案。
方法:
Samba 1.7BモデルとMistral 1.6Bモデルを用いて、文書の特定の深さに挿入された整数値のパスキーを生成し、その取得能力を測定。
バッチサイズ2048、ウォームアップステップ250、ピーク学習率1e-4、重み減衰0.1を用いたAdamWオプティマイザーで学習。
評価は、文書の長さ(4k, 8k, 16k, 32k, 64k, 128k, 256k)ごとに11の異なる深さで行い、各位置で5つの異なるパスキーで精度を測定。
限界:
Sambaの事前学習された基本モデルは、SWAベースのモデルと同様の取得性能を示し、さらなる改善の余地がある。
Sambaのハイブリッド化戦略が、すべてのタスクにおいて他の選択肢よりも一貫して優れているわけではない。
より洗練された入力依存の動的組み合わせを行うアプローチへの投資が潜在的に有効である可能性が示唆されている。
Entry ID:
http://arxiv.org/abs/2406.07522v1
Published:
June 11, 2024
Title:
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
Authors:
Liliang Ren, Yang Liu, Yadong Lu, Yelong Shen, Chen Liang, Weizhu Chen
An Image is Worth 32 Tokens for Reconstruction and Generation
目的:
TiTokという新しい1次元トークン化手法を提案し、画像生成モデルにおける効率と効果を向上させる。
背景:
従来の2次元トークン化手法では、固定された対応関係が制約となり、モデルの柔軟性が制限されていた。これに対して、1次元トークン化はよりコンパクトで意味的に意味のある表現を提供する可能性がある。
新規性:
1次元トークン化手法の導入により、画像の表現がよりコンパクトになり、生成モデルの効率が向上。
従来の2次元トークン化と比較して、同じまたはそれ以上の再構成と生成性能を達成しつつ、トークンの数やモデルサイズを大幅に削減。
分類器フリーガイダンスを用いた場合と用いない場合の両方で、最先端の性能を達成。
方法:
TiTokは、異なるトークン数(32、64、128など)を持つ複数のモデルバリアント(TiTok-S、TiTok-B、TiTok-L)を試験。
1次元トークン化を利用して、画像をより少ないトークンで表現し、MaskGITフレームワークを使用して画像を生成。
デコーダの微調整を行うことで、生成性能をさらに向上。
限界:
1次元トークン化手法は理論的には他のトークン化手法や生成フレームワーク、さらには画像モダリティを超えて一般化可能であるが、計算リソースの制限により、この論文ではその拡張については検討していない。
提案された1次元トークン化は、特に高解像度の画像生成において、まだ完全には機能していない可能性がある。
分類器フリーガイダンスの適用による改善が、1次元トークンに対して最適化されていない可能性がある。
Entry ID:
http://arxiv.org/abs/2406.07550v1
Published:
June 11, 2024
Title:
An Image is Worth 32 Tokens for Reconstruction and Generation
Authors:
Qihang Yu, Mark Weber, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
Parallelizing Linear Transformers with the Delta Rule over Sequence Length
目的:
自己回帰的言語モデリングにおいて、効率的でスケーラブルなリカレントモデルの開発を目指す。
背景:
従来のトランスフォーマーモデルは計算コストが高く、長いシーケンスを扱う際に非効率的である。この問題を解決するため、異なるアプローチが提案されているが、それぞれに利点と制限が存在する。
新規性:
本論文では、行列値リカレントニューラルネットワーク(RNN)を用いて、外積ベースの加算と連想リカレントを組み合わせた新しいモデルを提案している。このアプローチにより、計算コストを抑えつつ、効率的な学習と予測が可能になる。
方法:
提案モデルは、隠れ状態を行列として扱い、連想リカレントにより隠れ状態を更新する。
外積ベースの加算を使用して、隠れ状態に新しい情報を効率的に統合する。
デルタネットのパラメータ化を使用し、キーと値の更新ルールを通じてリコールの向上を図る。
さまざまなリカレントモデルとの比較を行い、提案モデルの性能を評価する。
限界:
提案モデルは特定の種類のシーケンスデータに対して最適化されており、すべてのタイプのデータに対して同様の効果が得られるとは限らない。
計算効率は向上しているが、最も複雑なシーケンス操作をモデル化する能力には依然として限界が存在する。
提案フレームワークは、構造化されていない行列との乗算を含むモデルや、より奇抜な連想演算子を使用するモデルのクラスを捉えることができない可能性がある。
Entry ID:
http://arxiv.org/abs/2406.06484v1
Published:
June 10, 2024
Title:
Parallelizing Linear Transformers with the Delta Rule over Sequence Length
Authors:
Songlin Yang, Bailin Wang, Yu Zhang, Yikang Shen, Yoon Kim