arXiv trend: July 22, 2024

2024年7月23日 14:52

最近のトレンドについて、いくつかの項目に分け、詳しく説明してください。
言語モデルの一般化能力:
この研究では、事前学習された言語モデルが簡単なデータから難しいデータへと驚くほどうまく一般化できることが示されています。簡単なデータを用いたファインチューニングが、難しいデータに対しても高いパフォーマンスを実現することが可能であり、難しいデータの収集よりもコスト効率が良いことが示されています。
モデルの指紋化:
大規模言語モデル（LLM）の盗難や不正使用のリスクが高まる中、モデルの指紋化の必要性が増しています。指紋化とは、モデルのオリジナル版と与えられたモデルをリンクし、不正使用や完全な盗難を特定する手法です。本研究では、成功する指紋が満たすべき五つの特性（透明性、効率性、持続性、堅牢性、偽造不能性）を定義し、新しい指紋化アプローチ「Chain & Hash」を提案しています。
マルチモーダルストーリー生成:
画像生成と自由形式のテキスト生成の進歩に伴い、画像とテキストの内容が交錯するマルチモーダルストーリー生成が注目されています。このタスクは、テキストと画像の複雑な相互作用を理解し、長いシーケンスの一貫した、文脈に適したテキストとビジュアルを生成する能力を必要とします。SEED-Storyという新しい方法を提案し、マルチモーダル大規模言語モデル（MLLM）を活用して、テキストトークンとビジュアルトークンの両方を予測します。
言語のフラクタル構造:
言語が自己相似性を持ち、すべての粒度レベルで複雑性を示し、特定の特徴的なコンテキスト長を持たないこと、また長距離依存性（LRD）を持つことが確認されています。これらの発見は、言語の次のトークン予測が、単語や節からより広いコンテキストや意図に至るまでのテキストの構造をどのように捉えるかについての理解を深めるものです。

xLSTMTime : Long-term Time Series Forecasting With xLSTM
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、多変量の長期時系列予測（LTSF）において、計算要求が高い、時間的ダイナミクスの捉えにくさ、長期依存関係の管理という課題に直面しているにもかかわらず、顕著な進歩を示しているトランスフォーマーベースのモデルに代わる新しいアーキテクチャの提案と評価でした。具体的には、LTSFに特化した拡張LSTM（xLSTM）アーキテクチャの適応を提示し、その性能を検証することで、時系列予測の分野における新たな可能性を探ることです。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、拡張されたLSTMアーキテクチャ（xLSTM）を用いることで、トランスフォーマーベースのモデルよりも優れた性能を発揮することが示されました。xLSTMは指数関数的ゲーティングと改良されたメモリ構造を採用しており、長期依存関係を効果的に管理し、複数の実世界のデータセットにおいて優れた予測能力を示すことができました。これにより、LTSFにおける再帰型アーキテクチャの有効性が再評価され、時系列予測の方法論に新たな選択肢を提供しました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
この論文で提示されたxLSTMモデルは優れた結果を示しましたが、さらなる改善の余地があります。具体的には、より多様なデータセットや異なる予測シナリオに対するモデルの適応性と汎用性を高めること、計算効率の向上、さらにはモデルの解釈可能性や透明性を高める研究が必要です。また、他の最先端モデルとの比較を通じて、その長所と短所を明確にすることも重要です。これらの課題に取り組むことで、時系列予測の分野における技術の進化を促進することができます。
Entry ID:
http://arxiv.org/abs/2407.10240v2
Published:
July 21, 2024
Title:
xLSTMTime : Long-term Time Series Forecasting With xLSTM
Authors:
Musleh Alharthi, Ausif Mahmood

Does Refusal Training in LLMs Generalize to the Past Tense?
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、言語モデル（LLMs）が有害、望ましくない、または違法な出力を生成するのを防ぐための拒否トレーニング手法における一般化ギャップを明らかにすることでした。具体的には、過去形にリフォームされた有害なリクエストに対して、現行の拒否トレーニングアプローチがどのように対応しているかを評価することが目的です。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、過去形にリフォームされた有害なリクエストに対する言語モデルの対応を系統的に評価し、多くの最先端のLLMsが単純な過去形のリフォームによって容易に回避されることを発見しました。また、過去形の例を明示的に含むファインチューニングデータを使用することで、過去形のリフォームに対する防御が実現可能であることも示されました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
将来的には、過去形だけでなく、未来形や他の異なる文脈で表現されたリクエストに対しても、言語モデルがどのように対応するかを評価する必要があります。また、拒否トレーニング手法が異なる文脈でのリクエストに対しても堅牢であることを確認するために、さらなる実験と改善が必要です。これにより、言語モデルの一般化能力を向上させ、様々なタイプの有害なリクエストに対して効果的に対処できるようにすることが課題とされています。
Entry ID:
http://arxiv.org/abs/2407.11969v2
Published:
July 19, 2024
Title:
Does Refusal Training in LLMs Generalize to the Past Tense?
Authors:
Maksym Andriushchenko, Nicolas Flammarion

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の主な目的は、大規模言語モデル（LLMs）のスケーリングにおいて、モデルパラメーターやトレーニングデータのサイズに注目が集まっている中で、しばしば見過ごされがちな語彙サイズの役割を明らかにすることでした。具体的には、語彙サイズがLLMsのスケーリング法則にどのように影響を与えるかを調査し、計算最適な語彙サイズを予測するための新しいアプローチを提案することです。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、語彙サイズが大規模言語モデルの性能に与える影響を定量的に分析し、大きなモデルではより大きな語彙が必要であることを示しました。また、IsoFLOPs分析、微分推定、損失関数のパラメトリックフィットという三つの補完的なアプローチを提案し、これらのアプローチが同じ結果に収束することを示しました。これにより、計算予算に応じた最適な語彙サイズを予測する手法が確立され、実際に異なるFLOPs予算で3Bパラメータのモデルをトレーニングすることで、予測された最適語彙サイズが一般的に使用される語彙サイズよりも下流のパフォーマンスを一貫して改善することが実証されました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
今後の課題としては、異なる言語やドメインにおける最適な語彙サイズの決定、さらには語彙サイズの動的調整が可能なモデルの開発が挙げられます。また、語彙サイズの増加がモデルの学習時間や計算コストに与える影響をさらに詳細に分析し、効率的なトレーニング手法を開発する必要があります。これらの問題に取り組むことで、さらに精度の高い言語モデルの構築が可能になるでしょう。
Entry ID:
http://arxiv.org/abs/2407.13623v1
Published:
July 18, 2024
Title:
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
Authors:
Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、大規模言語モデル（LLM）の盗難や誤用の問題に対処するため、モデルの所有者が自分のモデルを元のバージョンにリンクし、そのモデルが誤用されているか、完全に盗まれたかを特定できるようにするための指紋認証（fingerprinting）手法を提案することでした。指紋認証とは、モデルに一種の識別マークを付けることで、そのモデルが正規の所有者によって管理されているかを確認できる技術のことです。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、「Chain & Hash」という新しい指紋認証アプローチを提案し、それにより指紋が透明性、効率性、持続性、堅牢性、偽造不可能性の5つの特性を満たすことを示しました。これにより、モデルの盗難や誤用を防ぐための効果的な手段を提供することができました。また、Chain & Hash技術は、異なるデータセットでのファインチューニングや指紋を消去しようとする敵対的試みに対しても堅牢であることが実証されました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
この論文では、Chain & Hash技術の実装の効率性や有用性が示されましたが、異なるモデルアーキテクチャや新たな攻撃手法に対する適応性についてはさらなる研究が必要です。また、指紋技術が法的または倫理的な観点からどのように扱われるべきかについての議論も必要とされます。これらの問題は、指紋技術の普及とともに、今後の研究で取り組むべき重要なテーマです。
Entry ID:
http://arxiv.org/abs/2407.10887v2
Published:
July 17, 2024
Title:
Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique
Authors:
Mark Russinovich, Ahmed Salem

Scaling Exponents Across Parameterizations and Optimizers
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、モデルを小規模から大規模へと効果的にスケールアップする際に必要なアルゴリズムやアーキテクチャの詳細、例えばパラメータ化やオプティマイザーの選択などの精密な調整に関する問題を解決することでした。具体的には、以前の研究でのパラメータとデータの整合性に関する前提を再検討し、より弱い仮定とより広範なオプティマイザーのセットの下での新しい理論的結果を導出することを目指していました。
2. この論文で、どのような未解決問題が解決できましたか？:
この研究では、すべてのパラメータ化がハイパーパラメータの転移を達成できること、特に新しい層ごとの学習率の処方が標準的なパラメータ化でmuP（最大更新パラメータ化）を上回る性能を示したことを発見しました。さらに、Adamのイプシロンパラメータという、以前は見過ごされがちだったパラメータ化の側面が、勾配のアンダーフローを避けるために正しくスケールされる必要があることを示し、イプシロンハイパーパラメータを完全に排除する新しい数値的に安定したスケール不変のAdamバージョン、Adam-atan2を提案しました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
今後の課題としては、提案された新しいパラメータ化技術やオプティマイザーの適用範囲をさらに広げること、さまざまなタイプのモデルや異なるタスクにおける効果の検証、そして新しい学習率の処方やAdam-atan2のような新しいオプティマイザーのさらなる最適化と安定性の向上が挙げられます。これらの技術が実際のアプリケーションにおいてどのように最適に機能するかを詳細に評価することが重要です。
Entry ID:
http://arxiv.org/abs/2407.05872v2
Published:
July 16, 2024
Title:
Scaling Exponents Across Parameterizations and Optimizers
Authors:
Katie Everett, Lechao Xiao, Mitchell Wortsman, Alexander A. Alemi, Roman Novak, Peter J. Liu, Izzeddin Gur, Jascha Sohl-Dickstein, Leslie Pack Kaelbling, Jaehoon Lee, Jeffrey Pennington

Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の主な目的は、複数の言語モデル（LM）とプロンプト戦略を含む多段階パイプラインで構成される自然言語処理（NLP）システムのパフォーマンスを向上させる方法を見つけることでした。具体的には、パイプラインの中間段階で金のラベル（正解データ）が存在しないという現実的で難しいシナリオにおいて、どのようにして言語モデルの重みとプロンプト戦略を同時に最適化するかという問題に取り組むことが目的でした。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、パイプラインの全段階にわたってブートストラップ訓練ラベルを生成し、これを使用してプロンプトと重みを交互に最適化する近似最適化戦略を評価しました。その結果、重みだけ、またはプロンプトだけを直接最適化する方法に比べて、プロンプトと重みを一緒に最適化するシンプルなアプローチが、言語モデルやタスクによって平均して最大65%および5%のパフォーマンス向上を達成することができました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
この研究では多段階NLPパイプラインの最適化において重要な進歩を遂げましたが、さらなる改善の余地が残されています。具体的には、さまざまな言語モデルやタスクに対する最適化戦略の一般化能力をさらに向上させること、また、より複雑なNLPタスクやリアルタイム処理における効率的なプロンプトと重みの最適化手法の開発が挙げられます。これらの問題に対処することで、実用的なNLPアプリケーションにおけるパイプラインの適用範囲と効果をさらに拡大できるでしょう。
Entry ID:
http://arxiv.org/abs/2407.10930v1
Published:
July 15, 2024
Title:
Fine-Tuning and Prompt Optimization: Two Great Steps that Work Better Together
Authors:
Dilara Soylu, Christopher Potts, Omar Khattab

Unexpected Benefits of Self-Modeling in Neural Systems
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、人工ネットワークが自己モデルを学習することによってネットワークの構造がどのように変化するか、またその変化がネットワークの性能にどのような影響を与えるかを解明することでした。具体的には、自己モデルがネットワークの複雑性をどのように減少させ、パラメータ効率をどのように向上させるかを検証することが主な目的でした。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文により、自己モデリングを行うことで人工ネットワークがその内部状態を予測する補助タスクを学習する際に、ネットワークがより単純で、正則化され、パラメータ効率が良く、予測モデリングに適した形に自己再構築されることが明らかになりました。具体的には、自己モデリングを加えることでネットワークの複雑性が顕著に減少し、重みの分布が狭くなり、ネットワーク複雑性を示す指標である実ログ正準閾値（RLCT）が小さくなることが観察されました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
今後の課題としては、自己モデリングが具体的にどのようなメカニズムでネットワークの再構築を促進するのかの詳細な解析が必要です。また、異なるネットワークアーキテクチャや学習タスクにおける自己モデリングの効果の一般化可能性についてもさらに研究を深める必要があります。さらに、自己モデルが社会的または協力的な文脈で他者によってモデル化されやすくなる能力とどのように相互作用するかについての理解も進めることが求められます。
Entry ID:
http://arxiv.org/abs/2407.10188v1
Published:
July 14, 2024
Title:
Unexpected Benefits of Self-Modeling in Neural Systems
Authors:
Vickram N. Premakumar, Michael Vaiana, Florin Pop, Judd Rosenblatt, Diogo Schwerz de Lucena, Kirsten Ziman, Michael S. A. Graziano

SEED-Story: Multimodal Long Story Generation with Large Language Model
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、テキストと画像の複雑な相互作用を理解し、文脈に適した長いシーケンスのテキストとビジュアルを連動して生成するという課題を解決することでした。具体的には、物語テキストと鮮明な画像を交互に生成する多モーダルストーリー生成という、広範な応用が期待される貴重で実用的なタスクに焦点を当てています。
2. この論文で、どのような未解決問題が解決できましたか？:
この研究では、多モーダル大言語モデル（MLLM）を活用することで、テキストトークンだけでなくビジュアルトークンも予測し、適応されたビジュアルデトークナイザーを用いて一貫性のあるキャラクターとスタイルを持つ画像を生成する新しい方法であるSEED-Storyを提案しました。これにより、文脈に適した長いシーケンスのテキストとビジュアルの生成が可能になり、多モーダルストーリー生成の課題を解決しました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
この研究では、最大25シーケンスまでのストーリー生成を可能にしましたが、訓練には10シーケンスしか使用していません。そのため、より長いシーケンスでの訓練と生成の効率化、さらには生成されたストーリーの質の向上など、さらなる改善が求められます。また、多モーダルデータの処理能力や、より自然な画像生成技術の開発も重要な未解決問題として残されています。
Entry ID:
http://arxiv.org/abs/2407.08683v1
Published:
July 11, 2024
Title:
SEED-Story: Multimodal Long Story Generation with Large Language Model
Authors:
Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen

Deconstructing What Makes a Good Optimizer for Language Models
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の主な目的は、自動回帰言語モデリングにおいて、さまざまなモデルサイズ、ハイパーパラメータ、アーキテクチャのバリエーションを通じて、複数の最適化アルゴリズム（SGD、Adafactor、Adam、Lion）を比較し、最も効率的な最適化手法を特定することでした。これにより、モデルのスケーリングが増大するにつれて高くなる訓練コストを削減し、最適化の効率を向上させることを目指しています。
2. この論文で、どのような未解決問題が解決できましたか？:
研究結果から、SGDを除くAdafactor、Adam、Lionなどのアルゴリズムが、最適なパフォーマンスと幅広いハイパーパラメータの選択においてほぼ同等に機能することが示されました。そのため、最適なアルゴリズムの選択は、パフォーマンスやハイパーパラメータの不適切な指定に対する安定性ではなく、実装の容易さやメモリ制約などの実用的な考慮に基づくべきであるという結論に至りました。また、Adamの簡易版であるSignumとAdalayerを検討した結果、Adamのプリコンディショニングが最も大きな影響を与えるのは最後の層とLayerNormパラメータに限定されており、それ以外の層はSGDで訓練可能であることが明らかになりました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
今後の課題としては、特にAdamのプリコンディショニングが最終層とLayerNormパラメータにどのように作用しているのかをさらに詳細に解析すること、また、それ以外の層に対してSGD以外のアルゴリズムがどのように効果的に作用するかを探求することが挙げられます。さらに、異なるタイプのモデルやタスクにおいてもこれらの最適化アルゴリズムの比較を行い、より広範な応用可能性を探ることも重要です。
Entry ID:
http://arxiv.org/abs/2407.07972v1
Published:
July 10, 2024
Title:
Deconstructing What Makes a Good Optimizer for Language Models
Authors:
Rosie Zhao, Depen Morwani, David Brandfonbrener, Nikhil Vyas, Sham Kakade

Adam-mini: Use Fewer Learning Rates To Gain More
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の主な目的は、AdamWと同等またはそれ以上の性能を達成しつつ、メモリフットプリントを45%から50%削減する新しいオプティマイザー、Adam-miniを提案することでした。特に、大規模な言語モデルの事前学習や微調整、強化学習において、計算資源の使用効率を向上させることが求められていました。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、AdamWと比較してメモリ使用量を大幅に削減しながらも、同等またはそれ以上の性能を達成することができる新しいオプティマイザー、Adam-miniを開発することに成功しました。Adam-miniは、Adamの学習率リソースを削減することでメモリを節約し、パラメータをブロックに分割し、各ブロックに適切な学習率を割り当てることで高い性能を保持しました。さらに、GPUとCPU間の通信オーバーヘッドを軽減し、スループットを向上させる効果も確認されました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
未解決の問題としては、さらに多様なモデルやタスクにおいてAdam-miniの適用範囲を拡大し、その効果を検証する必要があります。また、異なる計算環境やハードウェア構成での性能評価も重要です。さらに、学習率を自動で最適化するような機能の追加や、他のオプティマイザーとの組み合わせによる性能向上の可能性も探るべきでしょう。
Entry ID:
http://arxiv.org/abs/2406.16793v5
Published:
July 03, 2024
Title:
Adam-mini: Use Fewer Learning Rates To Gain More
Authors:
Yushun Zhang, Congliang Chen, Ziniu Li, Tian Ding, Chenwei Wu, Yinyu Ye, Zhi-Quan Luo, Ruoyu Sun

Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の主目的は、ディープニューラルネットワークを用いた機械学習モデルが、分布のシフト下で一般化することが困難であるという問題に取り組むことでした。具体的には、分布のシフトに強い一般化能力を持つ教師ネットワークから得られた表現を学生ネットワークが学習しても、その一般化が不十分であることを解明しようとしています。
2. この論文で、どのような未解決問題が解決できましたか？:
この研究では、ディープニューラルネットワークが、予測に役立つ特徴と無関係な特徴を同時に学習する傾向があることを明らかにしました。この現象を「特徴の汚染」と名付け、この特徴の学習傾向が分布のシフト下での一般化失敗につながることを理論的に示しました。これは、従来の文献で一般的だった「偽相関による一般化失敗」という説明とは異なる新たな視点を提供しています。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
今後の課題としては、ディープニューラルネットワークの非線形特徴学習ダイナミクスをさらに詳細に理解し、分布のシフトに強い一般化を実現するための適切な帰納バイアスをどのように組み込むかを探求することが挙げられます。また、特徴の汚染を防ぐための具体的なアルゴリズムや手法の開発も重要な研究テーマです。
Entry ID:
http://arxiv.org/abs/2406.03345v2
Published:
June 06, 2024
Title:
Feature Contamination: Neural Networks Learn Uncorrelated Features and Fail to Generalize
Authors:
Tianren Zhang, Chujie Zhao, Guanyu Chen, Yizhou Jiang, Feng Chen

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文は、「スケーラブル監督問題」として知られる未解決問題に取り組むことを目的としています。具体的には、難しい訓練データを正確にラベル付けすることが困難であるにもかかわらず、難しいテストデータに対してモデルがうまく機能する方法を訓練する方法を見つけることです。言語モデルが向上し続けるにつれて、この問題はますます注目を集めています。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、現在の事前訓練された言語モデルが、簡単なデータから難しいデータへと比較的よく一般化できることが明らかにされました。これは、難しいデータでファインチューニングされたオラクルモデルと同等に機能することさえあります。また、難しいデータに最も関心がある場合でも、ファインチューニングのために簡単なデータを収集する方が良いという結論に至りました。これは、難しいデータが一般的にノイズが多く、収集コストが高いためです。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
この論文では、簡単なデータから難しいデータへの一般化が強いことが示されましたが、この一般化がどの程度他のタスクやより大きなモデル、異なるデータセットに適用可能であるかはまだ不明です。さらに、難しいデータの収集とラベル付けのコストを効果的に削減する方法についても、今後の研究が必要です。このような問題に対処することで、モデルの一般化能力をさらに向上させることができるでしょう。
Entry ID:
http://arxiv.org/abs/2401.06751v2
Published:
June 05, 2024
Title:
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
Authors:
Peter Hase, Mohit Bansal, Peter Clark, Sarah Wiegreffe

From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、言語モデルが推論タスクを解決する際に、明示的な思考の連鎖（Chain-of-Thought、CoT）のステップをどのように内部化するかを探求することでした。具体的には、モデルが明示的なCoT推論で訓練された後、中間ステップを徐々に取り除き、モデルを微調整することで、これらのステップを内部化し、推論プロセスを単純化しつつ高いパフォーマンスを維持する方法を提案しています。
2. この論文で、どのような未解決問題が解決できましたか？:
この研究により、GPT-2 Smallモデルが9x9の乗算問題を最大99%の精度で解く能力を持つようになりました。これは、標準的な訓練では4x4の乗算問題を超えて解くことができなかったため、大きな進歩です。また、より大きな言語モデルであるMistral 7Bでも、中間ステップを生成せずにGSM8Kにおいて50%以上の精度を達成することができました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
今後の課題としては、さまざまな種類の推論タスクやより複雑な問題に対して、この内部化手法がどの程度効果的であるかをさらに検証することが挙げられます。また、異なる言語モデルや異なるサイズのモデルに対するこの手法の適用性と効率性を評価し、より広範な問題に対する汎用性を確認する必要があります。
Entry ID:
http://arxiv.org/abs/2405.14838v1
Published:
May 23, 2024
Title:
From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step
Authors:
Yuntian Deng, Yejin Choi, Stuart Shieber

Fractal Patterns May Illuminate the Success of Next-Token Prediction
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、言語のフラクタル構造について研究し、以前から疑われていたが形式的に示されていなかった特性を定量化するための正確な形式主義を提供することでした。具体的には、言語が自己相似性を持ち、どのような特定の文脈長を持たずに、あらゆるレベルの粒度で複雑性を示すこと、および長距離依存性（LRD）を持つことを明らかにすることが目的でした。
2. この論文で、どのような未解決問題が解決できましたか？:
この研究により、言語が自己相似性を持ち、任意の粒度レベルで複雑性を示すこと、及び長距離依存性（LRD）を持ち、ハーストパラメータが約H=0.7であることが確認されました。これにより、短期的なパターンや依存関係が、より大きな範囲でのパターンや依存関係を反映していることが示され、テキストの構造が単語や節から広範な文脈や意図に至るまでの複数の粒度レベルでどのように捉えられるかについての理解が深まりました。さらに、異なるドメインやアーキテクチャにわたる広範な分析を通じて、フラクタルパラメータが堅牢であることも示されました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
フラクタルパラメータの微小な変動が、LLMの下流パフォーマンスを予測する際に、従来の困惑度に基づくビット・パーバイト（BPB）を上回ることが示されたものの、これらのパラメータがどのように具体的にLLMの成功メカニズムに寄与しているかの詳細な解析が必要です。また、異なる言語やジャンルにおけるフラクタル構造の適用可能性や、その他の自然言語処理タスクへの応用可能性についてのさらなる研究が求められます。
Entry ID:
http://arxiv.org/abs/2402.01825v2
Published:
May 22, 2024
Title:
Fractal Patterns May Illuminate the Success of Next-Token Prediction
Authors:
Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani

SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、オープンドメインの社会対話の分野において長らく存在していたデータ不足という問題を解決することでした。社会対話のための高品質で大規模なデータセットが不足していたため、この問題に対処することが求められていました。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、SODAという初の公開可能な百万規模の高品質社会対話データセットを提示することで、データ不足の問題に対処しました。これにより、社会的な常識知識を知識グラフから文脈化することで、広範囲の社会的インタラクションを大規模言語モデルから抽出することが可能となりました。また、人間の評価によると、SODAでの会話は以前の人間が作成したデータセットよりも一貫性があり、具体的で、自然であることが示されました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
この論文では、知識豊富な会話と自然な社会的雑談の間の区別についての理解を深めることができましたが、これらの区別をさらに明確にし、改善するための研究が今後も必要です。また、COSMOモデルが未知のデータセットにおいてどの程度一般化可能であるかをさらに詳細に評価することも重要な課題とされます。データ、モデル、コードを公開する計画もあり、これによる影響や応用の可能性を探ることも今後の課題です。
Entry ID:
http://arxiv.org/abs/2212.10465v3
Published:
October 23, 2023
Title:
SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization
Authors:
Hyunwoo Kim, Jack Hessel, Liwei Jiang, Peter West, Ximing Lu, Youngjae Yu, Pei Zhou, Ronan Le Bras, Malihe Alikhani, Gunhee Kim, Maarten Sap, Yejin Choi

Small-scale proxies for large-scale Transformer training instabilities
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、大規模なTransformerベースのモデルを訓練する際に発生する訓練の不安定性を小規模なスケールで再現し、研究する方法を見つけることでした。特に、大規模なスケールでの訓練では発生するが、小規模なスケールでは見られなかった不安定性の原因を科学的に解明し、それに対処することが目標です。
2. この論文で、どのような未解決問題が解決できましたか？:
この研究では、小規模モデルでも高い学習率で訓練すると、以前大規模モデルで報告された同様の不安定性が現れることを確認しました。また、大規模なスケールで以前に用いられた緩和策が小規模なスケールでも効果的であることを示しました。さらに、学習率の変化に対する最終的な損失の感受性に影響を与える他の既知のオプティマイザーやモデルの介入を研究し、小規模モデルが学習率の幅広い範囲で類似の損失を達成できるような訓練技術を組み合わせる方法を提案しました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
不安定性が発生する前にそれを予測できる可能性を探ることが挙げられます。具体的には、モデルの活性化や勾配のノルムのスケーリング挙動を調査することで、不安定性が発生する前兆を検出する方法の開発が今後の課題です。これにより、訓練プロセスをさらに最適化し、不安定性を事前に防ぐ手法を確立することが求められています。
Entry ID:
http://arxiv.org/abs/2309.14322v2
Published:
October 16, 2023
Title:
Small-scale proxies for large-scale Transformer training instabilities
Authors:
Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の主な目的は、数学的推論能力を持つ言語モデルの性能を向上させることでした。多くの既存のオープンソースの大規模言語モデル（LLM）は、インターネット上の大規模データに基づいて事前学習されていますが、数学関連の最適化が行われていないため、数学的推論タスクにおいては限定的な成果しか示していませんでした。この研究では、Llama-2モデルの数学的推論能力を強化する新しい手法であるReinforcement Learning from Evol-Instruct Feedback（RLEIF）を適用することにより、この問題に対処しました。
2. この論文で、どのような未解決問題が解決できましたか？:
この研究により、特に数学的推論タスクにおいて、既存のオープンソースのLLMを大幅に上回る性能を持つモデル、WizardMathを開発することができました。具体的には、GSM8kおよびMATHという二つの数学的推論ベンチマークで広範な実験を行い、WizardMathがChatGPT-3.5、Claude Instant-1、PaLM-2、MinervaをGSM8kで、またText-davinci-002、PaLM-1、GPT-3をMATHで上回る結果を示しました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
この研究では数学的推論に特化した最適化を行いましたが、他の科学技術や論理的推論を必要とする分野においても同様のアプローチを適用し、モデルの汎用性を高めることが今後の課題です。また、モデルの解釈可能性や説明可能性を向上させることも重要な未解決問題の一つです。さらに、学習データのバイアスを最小限に抑えることや、より効率的な学習アルゴリズムの開発も求められています。
Entry ID:
http://arxiv.org/abs/2308.09583v1
Published:
August 18, 2023
Title:
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct
Authors:
Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Dongmei Zhang

Efficient Planning in a Compact Latent Action Space
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文の目的は、高次元連続制御空間における効率的な計画（planning）を進展させることでした。具体的には、離散的または低次元の連続動作空間においては強いパフォーマンスを示す計画ベースの強化学習が、高次元の動作空間にスケールする際に計算オーバーヘッドが大きくなるという問題がありました。この問題を解決するために、効率的な計画手法を提案することが目的です。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、高次元連続動作空間においても効率的な計画を実現するための新しい手法「Trajectory Autoencoding Planner (TAP)」を提案しました。TAPは、状態条件付きのVQ-VAEを用いて低次元の潜在動作コードを学習し、VQ-VAEのデコーダが新しいダイナミクスモデルとして機能し、潜在動作と現在の状態を入力として長期の軌道を再構築します。これにより、高次元の動作空間でも、訓練分布の下での高い確率と予測される累積報酬の両方を持つ軌道を見つけることができ、計算オーバーヘッドを大幅に削減しました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
本論文で提案されたTAPは、高次元の動作空間において強力な結果を示しましたが、さらなる改善の余地があります。具体的には、より多様なタスクや環境においての一般化能力の向上、さらに計算効率の向上、またリアルタイムでの応用を可能にするための最適化などが挙げられます。これらの課題に取り組むことで、TAPの応用範囲を広げ、より実用的な高次元連続制御システムの開発に寄与することが期待されます。
Entry ID:
http://arxiv.org/abs/2208.10291v3
Published:
January 24, 2023
Title:
Efficient Planning in a Compact Latent Action Space
Authors:
Zhengyao Jiang, Tianjun Zhang, Michael Janner, Yueying Li, Tim Rocktäschel, Edward Grefenstette, Yuandong Tian

LoRA: Low-Rank Adaptation of Large Language Models
1. この論文は、どのような未解決問題を解決するのが目的でしたか？:
この論文は、大規模な事前学習モデル（例えばGPT-3 175B）を特定のタスクやドメインに適応させる際に、全パラメータを再訓練するフルファインチューニングが非現実的であるという問題を解決することを目的としています。具体的には、各タスクごとに独立したファインチューニングモデルをデプロイすることのコストが非常に高いため、効率的でコスト効果の高い方法を提案することが目的です。
2. この論文で、どのような未解決問題が解決できましたか？:
この論文では、LoRA（Low-Rank Adaptation）という新しい手法を提案することで、事前学習されたモデルの重みを固定し、Transformerアーキテクチャの各層に訓練可能なランク分解行列を注入することにより、ダウンストリームタスクでの訓練可能なパラメータの数を大幅に削減することができました。具体的には、GPT-3 175BをAdamでファインチューニングする場合と比較して、訓練可能なパラメータの数を10,000倍、GPUメモリ要件を3倍削減しました。また、LoRAは少ない訓練可能パラメータでありながら、RoBERTa、DeBERTa、GPT-2、GPT-3でモデル品質がファインチューニングと同等またはそれ以上であることが示されました。
3. 将来取り組むべき未解決問題として、何が残されていますか？:
LoRAの効果に関するさらなる実証的な調査が必要です。特に、ランク不足（rank-deficiency）が言語モデルの適応にどのように影響を与えるかについての理解を深めることが挙げられます。また、LoRAをさまざまなNLPタスクや他の複雑なモデルアーキテクチャに適用することの有効性を検証し、さらに改善するための研究が求められます。
Entry ID:
http://arxiv.org/abs/2106.09685v2
Published:
October 16, 2021
Title:
LoRA: Low-Rank Adaptation of Large Language Models
Authors:
Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen

arXiv trend: July 22, 2024

いいなと思ったら応援しよう！