AI分野における論文(主にLLM)

Ryuto Saito

2024年7月29日 01:55

はじめに

この記事では、AI分野、特にLLMに関する論文の中から、私の独断と偏見によってピックアップされたいくつかの論文の概要をまとめています。

論文のリスト

個人的に面白いと思ったAI分野の論文についてまとめます。以下の論文の全てに目を通しているわけではないので注意してください。

Evolutionary Optimization of Model Merging Recipes
Sakana AI によって公開された進化的アルゴリズムによる基盤モデルの構築についての論文。多様な能力を持つ幅広いオープンソースモデルを融合して新たな基盤モデルを構築するための方法を、進化的アルゴリズムを用いて発見する手法を提案している。
Demystifying Forgetting in Language Model Fine-Tuning with Statistical Analysis of Example Associations
言語モデルの分野では、ファインチューニングによって、事前学習の際に学習した例について忘却してしまうという課題がある。事前学習をしたにもかかわらず、ファインチューニングによって忘却してしまった例と、新しく学習するタスクにどのような関係があるのかをこの論文で分析している。具体的には、言語モデルが、N個の新しいタスクについて学習している間に忘却したM個の例を$${M \times N}$$の行列によって表現し、可視化している。さらに、行列を補完することによって、新しいタスクを学習する際に忘却する例に対して、従来の学習可能な言語モデルを用いたアプローチを上回る予測ができることを示している。
Reliable Conflictive Multi-View Learning
データ形式の融合によって、複数の種類のデータを関連付けるマルチビューについての論文。マルチビューデータとは、観測対象から複数の観測方法(ビュー)により得られたデータのこと。このマルチビューデータには、異なるビューの間で判断が矛盾するような低い品質のデータも存在する。従来の手法では、これらの品質の低いデータを取り除くか、矛盾したビューを置き換えてしまうことによってこの問題を解決しようとしてきた。しかし、実用上は、低い品質のデータを取り除くよりも、低い品質のデータに対しても判断を下すことが求められる。そこで、この論文では、モデルに対して、矛盾を孕むようなマルチビューデータへの判断結果とその信頼性を提供することを求めるRCMLという問題を提起している。さらに、この提起した問題に対して、ECMLという手法を考案し、6つのデータセットでその有効性を検証している。
Metacognitive Prompting Improves Understanding in Large Language Models
大規模言語モデルにおいて、効果的なプロンプトの設計により、タスク固有の性能について一貫した向上が見られるなどと、プロンプト技術の発展によってLLMは論理集約的なタスクに対してより良い推論ができるようになった。しかし、複雑な情報の処理や解釈をするために重要な「言語を詳細に理解する」という能力は十分に探求されていないままであった。そこで、この論文では人間の自己反省的な推論プロセスにインスピレーションを得た「メタ認知プロンプト(MP)」を導入している。MPによって、LLMに対して、ひと続きの構造化された自己認識評価を行わせることで既存の知識と新しい知見を引き出すことができる。GPT4を含むLLMによって10個のデータセットに対して実験をおこない、MPが一般的なNLU(Natural Language Understanding)タスク、ドメイン固有のNLUタスクの両方で既存のプロンプティング方法を一貫して上回ったことを示している。
Large Language Models are Zero-Shot Reasoners
Zero-shot learning(ゼロショット学習)とは、新しいタスクを訓練データから事前に学習していなくても、推論時にその未知のタスクについての何らかの補助情報を訓練済みAIモデルに与えることで、柔軟に適切な分類や予測を行うための学習方法のことである。特に言語モデルにおけるゼロショット学習とは、言語モデルのパラメーターを更新することなく、さらに例示もない状態で、さまざまなタスクを解決する能力を持つことである。この論文では、LLMに対して各回答の前に「ステップバイステップで考えましょう」と追加することによって、LLMが立派なゼロショット学習器となることを示している。

以下では、この5つの論文のうち、Sakana AI によって公開された Evolutionary Optimization of Model Merging Recipes を翻訳して概要を整理します。

Evolutionary Optimization of Model Merging Recipes (モデルマージの進化的最適化)

Abstract

この論文では、進化的アルゴリズムを応用して強力な基盤モデルの自動作成を実現する新しい手法を提案している。モデルマージは、コストパフォーマンスが良く、LLM開発の有望なアプローチとして挙げられる。しかし、現在のモデルマージの手法は、人間の直感とドメイン知識に依存しており、LLMの潜在的な能力を引き出すことができていない。ここでは、追加のトレーニングデータや計算資源をほとんど必要とせずに、多様なオープンソースモデルの効果的な組み合わせを自動的に発見することで、この現状を克服する進化的アプローチを提案する。このアプローチは、ドメインを超えたマージも可能であり、例えば、数学的推論能力を持つ日本語のLLMを生成することができる。この日本語数学LLMは、さまざまな確立された日本語LLMベンチマークにおいて、明示的にそのようなタスクのために訓練されていないにもかかわらず、最先端の性能を達成し、パラメータがはるかに多いモデルをも上回った。さらに、このアプローチで生成した、文化に配慮した日本語VLMは、日本文化特有のコンテンツを記述する際にその有効性を示し、これまでの日本語VLMを上回った。

論文の導入

モデルマージは、LLMコミュニティにおいて画期的なパラダイムシフトをもたらしている。複数のLLMを戦略的に組み合わせて単一のアーキテクチャに統合することで、追加のトレーニングを必要としないという大きな利点があり、新しいモデルを開発するための非常にコストパフォーマンスの良いアプローチとして研究者の注目を集めている。実際、オープンLLMのリーダーボードも現在、統合モデルが支配している。

しかし、特定のタスクでうまく機能する新しいモデルを作成・改良するためには、モデル選択と統合のレシピに関する人間の直感に依存している。さらに、モデル作成者は、さまざまなベンチマークタスクに関するドメイン知識を求められることが多くある。コミュニティに存在する多種多様なオープンモデルとベンチマークを考慮すると、人間の直感だけでは限界があり、新しいモデルの組み合わせを発見するためのより体系的なアプローチが、さらに大きな成果をもたらすであろうと考えられる。

そこで、この研究では、進化的アルゴリズムを利用して、さまざまなモデルを統合し、新しいモデルを生成するような人間の直感に依存しない方法によって発見できることを示す。この研究におけるアプローチは、パラメータ空間(重み)とデータフロー空間(推論経路)の両方を探索できる点で特徴づけられ、この研究では、この2つの次元を統合するフレームワークを提案している。

本研究では、LLMの基盤モデル開発の分野に対して、以下のような貢献を果たしている。

自動モデル構成: 進化的モデルマージを導入し、ユーザーが指定した能力を持つ新しい基盤モデルを作成するために、多様なオープンソースモデルの最適な組み合わせを自動的に発見する一般的な進化的手法を提案する。このアプローチは、既存のオープンモデルの集合知を活用し、広範なトレーニングデータや計算資源を必要とせずに強力なモデルを作成することを可能にする。
クロスドメイン統合: 本論文で提案した手法が異なるドメイン(例：非英語言語と数学、非英語言語と画像)からのモデルを統合する新しい方法を発見できることを示し、従来の人間の直感による設計戦略を超える能力を持つ可能性がある。
最先端の性能: 数学的推論能力を持つ日本語LLMと日本語VLMを自動生成し、明示的な最適化を行っていないにもかかわらず、さまざまなベンチマークで最先端の性能を達成した。
効率の良さと汎用性: 本論文の7BパラメータのLLMが、いくつかの既存の70Bパラメータの日本語LLMの性能をベンチマークデータセットで上回ることを確認した。
文化を考慮するVLM: 生成された日本語VLMは、日本語の画像説明ペアの国内データセットでテストした際にトップの結果を達成し、日本文化特有のコンテンツを扱う能力を示しています。

本研究は、進化的アプローチにより、勾配ベースの学習に依存せずに競争力のあるモデルを生成できることを示し、モデル開発が高価となってしまう従来のパラダイムに挑戦している。

背景と関連する話題

モデルマージ :
モデルマージは、複数の事前学習モデルを組み合わせる新しいアプローチであり、特定のタスクに微調整されたモデルを統合して、汎用的なモデルを作成する。従来の転移学習とは異なり、モデルマージは追加のトレーニングを必要とせず、多様なタスクを同時に処理できるモデルを目指している。モデルマージの単純な方法としては、同じベースモデルから微調整された複数のモデルの重みを平均化するmodel soupアプローチがある。この手法は画像処理や生成モデルで効果を示し、特にStable Diffusionモデルのマージに成功している。

言語モデルのマージ :
言語モデルのマージはMergekitの実装後に人気となった。このツールキットは、言語モデルの統合のための人気のレシピを提供するもので、単純な線形および球面補間に加えて、Task Arithmetic、TIES-Merging、DAREなどの高度なレシピも実装されており、ユーザーはこれらの方法を組み合わせて人気のベースモデルの微調整を行うことができる。このツールキットを使用して、コミュニティによって多くの優秀なマージモデルが開発されており、Open LLM Leaderboardのトップモデルのほとんどは、マージモデルが徐々に支配している。

Mergekitは、フランケンマージングと呼ばれる追加の方法も導入した。これは重みのマージに基づいていないが、ユーザーが複数のモデルから異なるレイヤーを積み重ねて順次新しいモデルを作成する実験を行うものである。この方法の利点は、完全に異なるモデルを統合して新しいアーキテクチャを作成できる可能性があることである。新しいフランケンマージング技術の発見はコミュニティにとって依然として難しく、現在のところ、ほとんどの人が同じようなフランケンマージングレシピを使用しており、それを改善するための試行錯誤はほとんど存在していない。この分野は依然として十分に研究されていなく、ここにこの論文で提案する進化的アプローチが役立つと考えられる。

Evolutionary Neural Architecture Searchとの関連 :
モデルマージは、大きな可能性を秘めているが、直感やドメイン知識に大きく依存してしまう。この点において、進化的アルゴリズムは、より効果的なマージ方法を見つけ出す可能性がある。この点で、従来のNeural Architecture Search(NAS)は計算資源を大量に消費するが、進化的アプローチでは学習不要で候補を評価できる。これにより、パラメータ空間や異なるモデルの層を最適化し、新しいニューラルアーキテクチャを作成することが可能になる。

進化的モデルマージの手法

この手法の目標は、基礎モデルの選択から統合モデルを自動的に生成できる統一フレームワークを作成し、このマージモデルの性能がモデルの集合内のいずれかの個別モデルを上回ることを保証することである。このアプローチの核には進化的アルゴリズムの適用がある。これを用いて、モデルマージに関する複雑さを洗練させることができる。この問題に体系的に取り組むために、まず統合プロセスを2つの異なる直交する構成空間に分解し、それぞれの影響を分析する。この分析に基づいて、これらの空間をシームレスに統合する一貫したフレームワークを導入する。

パラメータ空間におけるマージ :
パラメータ空間におけるモデルマージは、複数の基礎モデルの重みをマージし、同じニューラルネットワークアーキテクチャでありながら個々のモデルを上回る統一されたモデルを作成することを目的としている。モデルパラメータを結合するための戦略にはさまざまなものが存在するが、本研究におけるアプローチはタスクベクトル分析を利用して、各モデルが最適化されている特定のタスクや優れている分野に基づいて各モデルの強みを理解する。具体的には、TIES-MergingをDAREで強化し、より詳細なレイヤーごとの統合を可能にしている（この論文では、「レイヤー」とは入力/出力の埋め込みレイヤーやトランスフォーマーブロックを意味する）。各レイヤーでの疎化と重み混合のための統合構成パラメータを設定し、これらの構成はCMA-ESなどの進化的アルゴリズムを用いて選択されたタスクに対して最適化され、重要なタスク特有の指標によって導かれる。

データフロー空間におけるマージ :
データフロー空間におけるモデルマージでは、各レイヤーの元の重みを保持しつつ、トークンが通過する推論経路を最適化する。これはパラメータ空間でのマージとは異なる。初期の試みでは、シリアル接続と非適応型構成に限定しており、複数のモデルの層をどのように組み合わせるかを探索する。この検索空間は非常に大きく、特定の層配置が性能に悪影響を与えることが分かっている。そのため、インジケータ配列を使って検索空間を管理し、進化的アルゴリズムで最適化する。検索ではデータ推論経路のみを最適化し、層間の入力スケーリングも調整することで、予期しない出力を回避する。大規模な層の場合、ニューラルネットワークでスケーリング重みをパラメータ化し、検索空間を制限する。

パラメータ空間とデータフロー空間 :
パラメータ空間とデータフロー空間でのモデルマージは別々のアプローチであるが、これらを組み合わせることでさらに性能を向上させることができる。まずパラメータ空間におけるマージを適用して複数のマージモデルを作成し、その後データフロー空間におけるマージを適用する。これにより、複数の目的を持つモデルマージが可能となり、例えばパラメータ空間のマージで各目的に特化したモデルを作成し、データフロー空間におけるマージでこれらをさらに最適化する。これにより、最終モデルのパフォーマンスが向上する。

進化的アルゴリズムで作成した生成モデルの例

進化的モデルマージの手法によって生成したモデルの例に「EvoLLM-JP」「EvoVLM-JP」「EvoSDXL-JP」がある。

EvoLLM-JP :
EvoLLM-JPは数学的推論が可能な日本語LLMを目指して作成された生成AIモデルである。EvoLLM-JPは日本語特化言語モデル「Shisa Gamma 7B v1」と数学に特化した英語の言語モデル「WizardMath 7B v1.1」および「Abel 7B 002」を組み合わせたモデルで、「3種のモデルを多用なパターンで組み合わせ、出来上がったモデルの性能をLLMの数学性能測定ベンチマーク「MGSM」で測定し、最もスコアの高かったモデルを次世代に残す」という処理を数百世代繰り返すことで作成された。EvoLLM-JPは元となった「Shisa Gamma 7B v1」「WizardMath 7B v1.1」「Abel 7B 002」よりも高い性能を示しただけでなく、「Llama 2 70B」や「GPT-3.5」といった既存のモデルよりも高いスコアを記録した。また、EvoLLM-JPは数学的な応答だけでなく、日本語全般においても高い性能を示すことが確かめられた。EvoLLM-JPはパラメーター数7Bの言語モデルよりも高いスコアを記録したほか、一部のパラメーター数70Bの言語モデルよりも高いスコアを記録している。

EvoVLM-JP :
進化的アルゴリズムを用いたモデルマージでは、異なる目的で作成された異なるアーキテクチャの生成AIモデルを組み合わせることもできる。EvoVLM-JPは英語の画像言語モデル「LLaVa-1.6-Mistral-7B」と日本語の言語モデル「Shisa Gamma 7B v1」をマージして作成されたモデルで、画像に関する質問に日本語で応答することができる。

EvoSDXL-JP :
EvoSDXL-JPは進化的アルゴリズムを用いたモデルマージによって作られた画像生成モデルである。

進化的モデルマージに対する議論と将来性について

既存のオープンモデルの集合知を活用することで、ユーザーが指定した能力を持つ新しい基礎モデルを自動的に作成することができる。このアプローチは、人間の専門家が発見するのが難しい異なるドメイン（例：非英語言語と数学、非英語言語とビジョン）のモデルを自動的に見つけ出し、組み合わせる新しい方法を発見することができる。

そして、進化的モデルマージの手法を検証するために、日本語で数学的推論ができるLLMと、日本の文化に特化した内容を理解する日本語VLMを自動的に作成することができた。驚くべきことに、これらのモデルは、特に最適化されていないにもかかわらず、いくつかのLLMおよびビジョンベンチマークで最先端の結果を達成した。これにより、いくつかの既存の最先端70Bパラメータの日本語LLMの性能を超えることができた。

また、現在、進化的モデル統合を画像拡散モデルに応用し、進化的手法によって発見された新しい方法で既存のビルディングブロックを統合することにより、高性能なクロスドメイン画像生成モデルの作成に成功している。

この研究では、特定のベンチマークを最適化することから離れることが、意図していない他の多くのベンチマークタスクに対する一般化を引き起こすことがあることを示した。このように現れる一般化が、AIの次なる大きな進歩を解き放つ鍵となるかもしれない。

基礎モデルのトレーニングにはコストとリソースが増大しているため、オープンソースのエコシステムの豊富なバラエティを活用することで、大規模な機関や政府は、完全にカスタムモデルをゼロから開発するよりも前に、進化的アプローチを利用してプロトタイプモデルを迅速に開発することを検討することも考えられる。

進化的モデルマージの制約

進化的モデルマージによって勾配ベースの学習なしで、モデルの性能が向上するが、この際、当然制約も存在する。進化的モデルマージによって統合元のモデルの多様な専門知識を効率的に統合することができるが、同様に統合元のモデルの制約も引き継いでしまうことが課題として挙げられる。実際、研究チームは、マージしたモデルが論理的一貫性を欠いた返答を生成してしまう例に遭遇している。

おわりに

ここまでで、Sakana AI の進化的モデルマージについての論文の翻訳、要約をしてきました。日本語のオープンLLMで性能が良いという情報を聞きつけ、興味があり、公開されている Sakana AIの論文を読みましたが、勾配ベースの学習を全く必要とせずに少ない計算資源とデータで新しい基盤モデルを自動的に生成できることに驚きました。ただ、詳細なアルゴリズムについてはまだ詳しく理解することができていないため、調査を続けていきたいです。

この記事が気に入ったらサポートをしてみませんか？