コンポジットAI（複合AI）の進化：単一モデルから複合システムへの移行とその影響

2024年3月2日 16:13

最近の人工知能（AI）研究は、単一のモデルに依存する時代から、より複雑な多成分構造を持つコンポジットAI（複合AI）システムへと移行しています。これは、AI開発の新たなパラダイムを示しており、開発者にとってさまざまな可能性と課題を提起しています。特に、カリフォルニア大学バークレー校の人工知能研究所が詳細に分析したこのトレンドは、AIの未来にとって重要な意味を持っています。本記事では、最近（2月に）バークレー大学のAI研究所が発表した論文と以前コンポジットAIを早い時期で提示しているガートナーの最新AIハイパーサイクル分析を基に、本記事ではコンポジットAI（複合AI）の進化とそのビジネス・ワークフローへの統合がもたらす新たなパラダイムについて探求します。

注：複合AIの英語の表現：GartnerはComposite AIといいます。BerkeleyのAI研究所はCompound AIといいます。文中一旦コンポジットAI（Composite AI）で統一

コンポジットAIの定義と黎明期の位置づけ

定義

コンポジットAIは、知識表現のレベルを広げて学習効率を高めるために、複数のAI手法を組み合わせて構築されたアプリケーション（または複数のAI手法の融合）を指します。

https://www.gartner.co.jp/ja/articles/what-s-new-in-artificial-intelligence-from-the-2023-gartner-hype-cycle

これにより、AIは単一の手法やモデルに依存することなく、より広範な問題を解決できるようになります。コンポジットAIのアプローチには、ディープラーニング、シンボリックAI、など、様々な技術が含まれており、それぞれが特定の問題解決能力を提供します。
- 例えば：ニューロシンボリックAI：（Gartnerの定義では）「機械学習手法とシンボリック・システムを組み合わせて、より堅牢で信頼性に優れたAIモデルを作成するコンポジットAIの一形態。より効果的にさまざまなビジネス問題を解決するための推論インフラストラクチャを提供する」

ガートナーのハイパーサイクルにおける分析

2023年のガートナーのAIハイパーサイクルでは、コンポジットAIはまだ発展途上の段階にあり、そのポテンシャルを最大限に引き出すための研究や実装が活発に行われています。この段階では、コンポジットAIのアプリケーションは主に実験的なものであり、具体的なビジネスケースへの適用や広範囲な市場への浸透はこれからという状況です。

21年と23年のAIはハイパーサイクル
- https://www.gartner.co.jp/ja/articles/the-4-trends-that-prevail-on-the-gartner-hype-cycle-for-ai-2021
- https://www.gartner.co.jp/ja/articles/what-s-new-in-artificial-intelligence-from-the-2023-gartner-hype-cycle

コンポジットAIの選択理由

BerkeleyのAI研究所論文の要点整理です。

タスク特化の改善容易性: コンポジットAIシステムでは、特定のタスクに対する改善が容易であり、システムの設計変更はトレーニング実行を待つよりも迅速に行えます。これにより、特にAlphaCode 2やAlphaGeometryのようなプロジェクトで示されたように、高度な成果を実現します。
- LLMsの使用増加に伴う焦点の変化：
  - 大規模言語モデル（LLMs）を使用してアプリケーションを構築する開発者が増える中で、最先端のAI成果を実現する方法に関する焦点が変化しています。
- 複合システムによる成果の実現：
  - 最先端のAI成果は、単一のモデルではなく、複数のコンポーネントを持つ複合システムによってますます実現されています。
- 企業におけるLLMsの応用：
  - Databricksの調査によると、LLMsのアプリケーションの60%が何らかの形で検索強化生成（RAG）を使用し、30%が複数ステップのチェーンを使用しています。
- 推論戦略の複雑化：
  - 従来は単一のLLM呼び出しの結果のみを報告していた研究者も、今ではより複雑な推論戦略からの結果を報告しています。例えば、Microsoftは、医学試験においてGPT-4の精度を9%上回るチェーン戦略について説明しました。GoogleのGeminiでは、新しいCoT@32推論戦略を採用し、これはモデルを32回呼び出し、GPT-4の単一呼び出しとの比較に問題を提起しています。
複合システムへの移行の意義：
- このような複合システムへの移行は、単にトレーニング規模を拡大するだけではなく、巧妙な工学設計を通じてAIの最先端成果を達成することが可能であることを意味します。これは、AI開発における新たな設計上の問題を提起すると同時に、技術の進化に対する興奮をもたらしています。

https://bair.berkeley.edu/blog/2024/02/18/compound-ai-systems/

動的性の向上: 開発者は、リアルタイムデータを取り込むために、モデルを他のコンポーネント（例えば、検索や検索機能）と組み合わせる必要があります。
制御と信頼性の強化: 単一モデルではなくシステムを使用することで、開発者は行動をより密接に制御し、信頼性を高めることができます。
性能目標の多様性: アプリケーションは、固有の品質レベルとコストを持つAIモデルを柔軟に調整する必要があります。

コンポジットAIシステムの事例

BerkeleyのAI研究所論文で紹介された事例の抜粋です。

AlphaCode 2
- コンポーネント：プログラムのサンプリングとスコアリングのための微調整されたLLM、コード実行モジュール、クラスタリングモデル
- 設計：コーディング問題に対して最大100万の解を生成し、それらをフィルタリングしてスコアリング
- 結果：コーディングコンテストで人間の85パーセンタイルに匹敵
AlphaGeometry
- コンポーネント：微調整されたLLM、シンボリック数学エンジン
- 設計：LLMを通じて幾何学問題に対する構築を反復的に提案し、シンボリックエンジンによって導き出された事実をチェック
- 結果：国際数学オリンピアードの銀メダルと金メダル受賞者の間の成績
Medprompt
- コンポーネント：GPT-4 LLM、正確な例のデータベースに対する最近傍検索、LLMによって生成された思考チェーンの例、複数のサンプルとアンサンブル
- 設計：医療に関する質問に対して、類似例を検索して数ショットプロンプトを構築し、それぞれの例にモデル生成の思考チェーンを追加して、最大11の解を生成して評価
- 結果：より単純なプロンプト戦略を使用した専門の医療モデル（例：Med-PaLM）を上回る
Gemini on MMLU
- コンポーネント：Gemini LLM、カスタム推論ロジック
- 設計：MMLUベンチマークのためのGeminiのCoT@32推論戦略は、モデルから32の思考チェーンの回答をサンプリングし、十分に合意があればトップの選択を返し、そうでなければ思考チェーンなしで生成を使用
- 結果：MMLUで90.04％、GPT-4の5ショットプロンプトで86.4％、Geminiの5ショットプロンプトで83.7％と比較
ChatGPT Plus
- コンポーネント：LLM、時宜にかなったコンテンツを取得するためのWebブラウザプラグイン、Pythonを実行するためのコードインタープリタプラグイン、DALL-E画像生成器
- 設計：ChatGPT Plusは、質問に答えるためにWebブラウジングなどのツールを呼び出すことができ、LLMがそれぞれのツールをいつどのように呼び出すかを決定
- 結果：何百万もの有料加入者を持つ人気の消費者向けAI製品
RAG, ORQA, Bing, Baleen等
- コンポーネント：LLM（場合によっては複数回呼び出し）、検索システム
- 設計：LLMと検索システムを様々な方法で組み合わせ、例えばLLMに検索クエリを生成させたり、現在のコンテキストに直接検索させたりする
- 結果：検索エンジンやエンタープライズアプリケーションで広く使用される技術

コンポジットAIシステムの挑戦

設計空間の広がり:与えられたタスクに対するシステム設計の選択肢は広大。
- 例：検索強化生成（RAG）では、選択可能な検索モデルや言語モデルが多数存在。
  1. 検索品質を向上させる技術（クエリ拡張や再ランキングモデルなど）。
  2. 言語モデルの生成出力を改善する技術（例：別のLLMを使って出力が検索結果と関連しているか確認）。
- 開発者は、最適な設計を見つけるためにこの広大な空間を探索する必要があります。
- 限られたリソース（レイテンシやコスト予算など）をシステムコンポーネント間で割り当てる必要があります。
最適化の難しさ: 複合システムの品質を最大化するには、コンポーネントを協調させて最適化する必要があります。
- 例：LLMがユーザーの質問を見て、検索クエリを生成し、検索結果に基づいて回答を生成するRAGアプリケーション。
- 単一モデルの開発ではモデルをエンドツーエンドで簡単に最適化できるが、複合AIシステムには最適化が難しい非微分可能コンポーネント（検索エンジンやコードインタープリターなど）が含まれます。
- 複合AIシステムの最適化はまだ新しい研究領域。例えば、DSPyは事前学習されたLLMやその他のコンポーネントのパイプラインを最適化する一般的なオプティマイザーを提供します
運用上の課題:複合AIシステムでは、機械学習の運用（MLOps）がより複雑になります。
- 伝統的なMLモデル（スパム分類器など）の成功率を追跡するのは簡単だが、LLMエージェントのパフォーマンスをどのように追跡、デバッグしますか？
- 新世代のMLOpsツールの開発が必要とされている。興味深い問題には以下が含まれます：
  - モニタリング: 複雑なAIシステムからのトレースを効率的に記録、分析、デバッグする方法。
  - DataOps: データサービングコンポーネント（ベクトルDBなど）を含む多くのAIシステムでは、提供されるデータの品質に依存するため、これらのシステムの運用にはデータパイプラインも含めた焦点が必要。
  - セキュリティ: 複合AIシステムは個々のモデルと比較して予期せぬセキュリティリスクを生じさせる可能性がある。これらのシステムを保護するための新しいツールが必要。

新しいAIシステムのパラダイム

AIシステムの設計: 開発者は、「大規模言語モデルプログラミング」というフレームワークを用いて、AIモデルとその他のコンポーネントを統合しています。
- プログラミング手法の進化: 「言語モデルプログラミング」という新しいフレームワークを使い、開発者は複数のAIモデルやツールを組み合わせてアプリケーションを構築できるようになりました。これは、LangChainやLlamaIndexのようなコンポーネントライブラリや、AutoGPT、BabyAGIのようなエージェントフレームワーク、そしてGuardrailsやOutlines、LMQL、SGLangのようなツールを利用します。
自動化された品質最適化: DSPyは、目標指標を最大化するために大言語モデルの呼び出しとその他のツールを最適化する最初のフレームワークです。
- DSPyは、LLM呼び出しとその他のツールで構成されたシステムを最適化し、目標メトリックを最大化することを目指す最初のフレームワーク。
- ユーザーはLLMやその他のツールへの呼び出しからアプリケーションを作成し、目標メトリックを提供すると、DSPyはエンドツーエンドのパフォーマンスを最大化するために、各モジュールのプロンプト指示、フューショット例、その他のパラメータ選択を自動的に調整。
運用の最適化: LLMOpsとDataOpsがAIアプリケーションのモデル出力とデータパイプラインの監視を強化しています。
- AIアプリケーションでは、モデルの出力とデータパイプラインの両方を慎重に監視する必要がありますが、複合AIシステムでは、各入力に対するシステムの振る舞いがはるかに複雑になるため、アプリケーションによって取られたすべてのステップと中間出力を追跡することが重要です。
- LangSmith、Phoenix Traces、Databricks Inference Tablesなどのソフトウェアは、これらの出力を細かい粒度で追跡、視覚化、評価し、場合によってはデータパイプラインの品質や下流のメトリックと相関させることができます。
コストの最適化: FrugalGPTとAI Gatewayは、適切なAIモデルを選択することの課題に対処しています。
- FrugalGPTは、ターゲット予算に基づいて品質を最大化するために、異なるAIモデルカスケードへの入力を自動的にルーティングするフレームワーク。
- 小さな例のセットに基づいて学習したルーティング戦略は、同じコストで最高のLLMサービスを最大4％上回るか、またはコストを最大90％削減しながらその品質に一致させることができる。

総括

コンポジットAI（複合AI）はAIの発展に伴い、複雑なビジネス問題を解決するための重要な技術として注目を集めています。最先端のAI成果は、単一のモデルではなく、複数のコンポーネントを組み合わせた複合システムによって実現されることが増えています。例えば、GoogleのAlphaCode 2やAlphaGeometryのようなプロジェクトでは、LLMsを活用して複雑な問題に取り組んでいます。これらの進化は、AIをビジネスに統合し、革新的なソリューションを生み出すための新しい可能性を開いています。そのため、コンポジットAIを深く理解し、適切に応用することが、企業が未来にわたって競争力を保ち、成功を収めるために不可欠です。

この記事が気に入ったらサポートをしてみませんか？