「考えるということを考えるAI」： OpenAI o1と因果推論AI（Causal AI）

Masaya.Mori 森正弥 / CAIO (Chief AI Officer)

2024年9月27日 18:50

本記事は、9月12日にOpenAIから発表された新しいAIモデル、o1 シリーズ (o1-preview, o1-mini）についてと、o1 登場によって注目が高まるであろう、生成AI（Generative AI）とは異なるアプローチのAIであり、「考えるということを考える」を実現する、因果推論AI（Causal AI）について概観したものです。AGI(汎用人工知能) の実現に向けたステップにもなりうる「生成AIと因果推論AIのシナジー」や、そのような時代にあって「人間がやるべきこと」についても触れています。

o1シリーズと強化学習

9月12日に、OpenAIは、推論モデルである「o1シリーズ」を発表しました。o1 シリーズは、OpenAIの主力である GPT シリーズとは異なり、大規模言語モデル（LLM）が通常するように一度に答えを導き出すことはしません。人間が問題を解決するときに行うように、問題を推論し、ストラテジーを考え、アプローチを決め、ステップバイステップで解いていき正しい結果に到達するように努めます。

以下の動画の中で、OpenAI の開発者陣が、o1 シリーズに対しての想いを共有しています。冒頭では、GPTシリーズとは異なるAIモデルであるため、違う響きを出したく、o1という名前にしたと話しています。

初期のOpenAI が「強化学習」にフォーカスし研究を行っていたことはあまり知られていません。強化学習でのブレークスルーを目指し研究開発を進めていましたが長く難航し、彼らは、Transformer ベースの大規模言語モデルにおける性能の飛躍的な向上を受けて、GPTシリーズの開発に舵を切りました。そして、誕生した ChatGPT は世の中に驚きをもって迎えられ、瞬く間にユーザー数を増やしました。多くには、大量のデータとパラメーターと計算量による「スケーリングの法則（Scaling Law）」による成果だと受け止められましたが、実は、人間参加型アプローチを組み合わせた強化学習である RLHF（人間のフィードバックによる「強化学習」）によってその応答の社会的受容性が高まったからだという指摘もあります。つまり、強化学習は、OpenAI の研究能力の基礎をなすケイパビリティの一つであることは間違いないということです。

Chain of Thought (CoT) 推論と動的推論深度

o1 は、強化学習と、思考過程を同時に入力することで精度を向上させる手法である Chain of Thought (CoT) 推論、あるいは、思考連鎖推論を用いて、複雑な推論や問題解決のタスクを巧みにこなすよう設計されています。これにより、o1 は複雑なタスクを複数の視点を考慮しながら小さな管理しやすいステップに分解し、各段階で起こりうる結果を分析しつつ実行します。また、この CoT推論においては、目の前の問題の複雑さに基づいて分析の深さを調整する動的推論アプローチを採用しています。固定された推論ステップで動作する従来のAIモデルとは異なり、o1 は抽象的な概念と具体的な例を滑らかに行き来します。この柔軟性により、メタ認知プロセスをシミュレートする能力が向上し、必要に応じて推論戦略を洗練させていきます。つまり、「考えるということについて考える」ことができるというわけです。

そのような高度な推論能力により、o1 は、STEM分野（科学・技術・エンジニアリング・数学）のタスクに対して一般的に高い性能を発揮します。
プログラミングや数学においては、o1 は、様々な学術的ベンチマークでトップクラスのパフォーマンスを見せています。例えば、プログラミング競技プラットフォームである Codeforces で上位11％に入る水準を見せ、アメリカ数学オリンピック予選でトップ500人に入る成績を収めました。

筆者も有名大学の入試数学の問題を o1 に解いてもらったのですが、非常にきれいな解法を作り上げ、驚きました。試しに以下は3次方程式を解いてもらったものです。

また、「１＋１＝２の証明」のようなトリッキーなものも、きちんとペアノの公理を用いた定石通りの解法を見せてくれます。

ですが、この高度かつ動的な推論能力であるからこそモデルが最終回答を返すまでに時間をかけることが多くみられます。生成AI・LLMが一般的に反応速度が遅いと評価されることがありますが、o1 は、今現在の様々なLLMと比較してもさらに遅く感じられることがあります。

とはいえ、今までにない推論能力が実現されていることは間違いありません。他にも、以下のようなタスクで強みを持っているとされ、これまで、LLMのRAG（拡張検索生成）システムではどうしても精度が出なかった領域でも、高い品質のアウトプットを期待していくことができるでしょう。

・複雑なコード生成: アルゴリズム生成や高度なコーディングの支援
・高度な問題解決: 包括的なブレインストーミングや複雑な課題への対応
・複雑な文書比較: 契約書、訴訟資料、法的文書等の微妙な差異の分析
・指示の遵守とワークフロー管理: 文脈と規則に沿ったワークフローの実行

推論過程の追跡と「説明可能なシステム」

o1 は高い性能以外でも、利用者が o1 の推論過程を追跡できるという特徴があります。複雑な問題に対しての回答を得た際に、なぜこのような最終結果になったかを確認することで処理の透明性も一定確保することができるというわけです。

AI開発においては、レッドチーミング（Red Teaming）と呼ばれる安全対策が存在します。レッドチーミングは、外部からの攻撃をシミュレーションしたり、モデルに対して有害、偏りのある、または意図しない動作を引き起こすようなプロンプトを与えたりして、AIシステムを厳密にテストすることを指します。これは、コンテンツの安全性、誤情報、慎重な倫理的判断を要する分野等で、モデルが大規模に展開される前に脆弱性を特定するために重要になります。OpenAIは、o1 の開発におけるレッドチーミングにあたって、o1 の推論過程をモニタリングする実験的手法を導入し、モデルが意図的に誤った情報を提供する際の振る舞いを検出し、対応しています。

過去に、現代のディープラーニングベースのAIがブラックボックスであることからのXAI（説明可能なAI）が重要であるという記事を書きました。その中でこう述べました。

このような基礎的なアプローチの上で、自律的に実行するための意思決定のポリシーが作られ、それによって説明可能な自律制御システムを実現していくというのが、XAI 実現の方向性になるでしょう。これらは透明性を持ってその途中経過における説明も、事後による検証も可能にし、安全性と信頼性の高いAIによる社会基盤の構築へとつながっていくはずです。

XAI （Explainable AI、説明可能なAI)：信頼できる人工知能に支えられる社会を目指して

ここでいう「説明可能な自律制御システム」の構築に向けた、一つの革新的な例を、o1 は示しているのではないかと思います。

o1 と因果推論AI （Causal AI）

「因果推論AI （Causal AI）」と呼ばれる AIの種類があります。
画像やテキストを生成する「生成AI（Generative AI）」、需要や価格の動きを予測する「予測AI（Predictive AI）」等、AIに関しては、いくつかその機構（アーキテクチャ、メカニズム）や機能、ユースケースによって分類がありますが、「因果推論AI（Causal AI)」もその一つです。

因果推論AI（Causal AI）とは、Stanford 大学の Social Innovation Review 誌での説明を踏まえると、「単なる相関関係ではなく因果関係を用いて推論を行う人工知能の技術」となります。内部にこの世の中の様々な事象における因果関係のモデルを獲得しており、それに基づいて、起きた事象の原因を究明したり、きちんとした因果関係に基づいてステップバイステップで与えられたタスクを実行したり、意思決定の構造を明らかにすることができる技術となります。

2024年のGoogle DeepMindの論文「Robust agents learn causal world models」では、多様な現象に適応できるエージェントは、因果関係のモデルを学習している必要があることを数学的に示しています。因果推論AIは、現代のAI をブレークスルーさせる鍵の一つであるといえます。

やや脱線しますが、上記の論文のタイトルに、「world models （世界モデル）」という単語が出てきています。「因果関係のモデル」を持つ、ということが「世界を表現するモデル」を持つことにつながるため、因果推論AIは、以前紹介した「World Models（世界モデル）」の実現に不可欠な技術である、と唱えている研究者もいます。

o1 は厳密な意味では因果推論AIではありませんが、因果推論AIという領域が達成しようとしていたことを強化学習とCoT推論のアプローチによって実現しており、因果推論AIの現実解の一つなのではないかと思われます。

因果推論AI（Causal AI）と生成AI（Generative AI）の違い

以下は、2023年のGartner 社のAIに関するハイプサイクルです。ハイプサイクルとは、テクノロジーに対する期待の進展を「黎明期」「『過度な期待の』ピーク期」「幻滅期」「啓発期」「生産性の安定期」の５段階に分け、ある技術に関する社会や企業の期待が今、どの段階にあるかということを可視化した図になっています。

What’s New in Artificial Intelligence from the 2023 Gartner Hype Cycle

この図によると、生成AI（Generative AI）は多くの企業によって活用が進み、まさに期待のピークにありますが、因果推論AI （Causal AI）は、黎明期の途中にあります。

GPTシリーズと o1 シリーズがAIモデルのアーキテクチャから異なるように、ジャンルとしての生成AI（Generative AI）と因果推論AI（Causal AI）も基本的に別のものになります。

一般的に生成AI、とりわけ大規模言語モデル（LLM）が行っていることは、「人々がある質問をしたとき、どのようなレスポンスが確率的にもっともありえそうかを踏まえて、回答を作成する」ということです。確率的にありえそう、という曖昧さ、あるいは厳格さの欠如が、事実に関する情報を求められた際のそれらしい回答の中に偽情報が混入している、いわゆる「ハルシネーション」を起こす要因となっています。

LLMや他の生成AIは、既存の文章を改良したり、アート作品を生成したりすることで時に生産性を高めたり、価値を生み出したりすることができますが、ある出来事の因果関係を解析していくようなことは本質的に苦手です。また、どうしてそのようなアウトプットを出したのかは基本的にブラックボックスであるために説明できません。

これに対して、因果推論AIは、因果関係の組み合わせによって目的とするアウトプットに至るというアプローチをとるため、数学や物理のようにロジックの積み上げが意味を持つ分野で幅広いタスクをこなすことができます。また、必然的にどうしてそのアウトプットを行ったのかということを説明するための説明可能性も備えていることになり、XAI を実現する重要な技術であると考えられます。

以前、PP（確率的プログラミング）という手法をご紹介しましたが、PPによって因果推論AIを実装することも可能です。

因果推論AIの応用ポテンシャル

因果推論AIの応用範囲はとても広いです。例えば、医療分野では、様々な病状や治療結果の原因と結果を特定するのに役立つことが期待されます。例えば、異なる治療介入が患者の結果に与える影響を因果推論AIでシミュレーションすることで、医師が治療オプションの効果を事前に検討し、確実な治療方針を定める助けとなると考えられます。

金融の分野では、リスク評価において効果を発揮するでしょう。景気、市場変動、投資リターンの因果関係を分析することができ、例えば、市場のボラティリティの原因を洞察したり、規制の変更が金融市場に与える影響を評価したり、不正行為に寄与する要因を特定するのに役立ちます。

製造業においては、製造プロセスの最適化や問題の予防、事故発生時の原因の究明に使用できます。プロセスの調整、設備のアップグレード、サプライチェーンの変更の影響を因果推論AIを用いてシミュレーションすることで、品質向上、欠陥の削減、そして生産効率の最適化に最も効果的な介入方法を特定することができます。

顧客体験の改善においても、因果推論AIは適用できます。因果推論AIは、顧客の行動を理解し、満足度を向上させるために重要な役割を果たします。顧客の離脱要因を特定し、顧客の好みの背後にある因果関係を明らかにし、顧客体験を向上させるための個別対応の提案を行うことができます。これにより、企業は製品、サービス、マーケティング戦略を顧客のニーズ、プリファレンス、ビヘイビアにより効果的に合わせていくことができます。

政策立案においても、因果推論AIは大きな応用ポテンシャルを秘めています。エビデンスに基づく政策立案（EBPM）は、政策介入による効果を評価する際にランダム化比較試験（RCT）等の手法を用いていますが、必ずしも全ての政策評価に適用できるとは限りません。因果推論AIは、観察データからでも因果関係を推定できるため、RCTが実施できない状況でも政策効果を評価することが可能となります。因果推論AIを用いることで、様々な政策介入の効果をシミュレーションし、最適な政策を選択することが可能となります。例えば、複数の教育政策の効果を比較検討し、最も学習効果を高める政策を特定することができます。また、政策の個別化や透明性向上にも貢献することでしょう。

さらには、学術的にも大きなインパクトがあるかもしれません。例えば、未解決の問題や目標に大胆な仮説を設定して組み込み、それに対して因果推論AIによる解決方法の推論とロジックの構築を実行させます。それにより、従前、解けなかった問題に対して多様な切り口でのアプローチを行い、現象に関する理解を深めることができます。結果として自然科学や社会科学における理論構築そのものの進歩が後押しされていく可能性もあります。

生成AIと因果推論AIによる無限の可能性

生成AIと因果推論AIの違いを認識し、どう組み合わせて使うのかというのは重要なポイントです。いわゆる企業の中での各種業務に存在する文書の検索やワークフローの実行というような一般的タスクは、実は、生成AIを使って実装したシステムでも、因果推論AIを使って実装したシステムでも、同様に実現することができます。そのため、それらの根本的価値を見過ごしてしまう恐れがあります。

生成AIと因果推論AIの間には本質的な相互補完関係があります。生成AI は既存のパターンから新しいアウトプットを作成することに焦点を当てていますが、因果推論AIはそれらのパターンの背後にある因果関係を明らかにすることに重点を置いています。

生成AIは、多様なアウトプットの出力を可能にすることから、人の創造的タスクを助ける役割を持ちます。対して、因果推論AIは、因果関係を解析することを可能にすることから、人の合理的タスクを助ける役目を持ちます。この二つのAIをかけ合わせていくことで、例えば、生成AIによって新しい事業のアイデアを大量に生み出し、それら大量の事業の具体的な実行計画を因果推論AIによって組み立てていく、このようなことが可能になるでしょう。アイデアを広げていく Zoom-out とその実行を具現化していく Zoom-in を大規模に両立させていくような新たな基盤が誕生することになります。

OpenAI は実際に、「o1 モデルはGPT-4o モデルを補完するもの」だと説明しています。次のフロンティアモデルである GPT-5 では、今までの生成AI・LLMのパラダイムと、この因果推論のパラダイムを統合するということも述べています。

生成AIはその驚異的な表現力で瞬く間に数多くの産業・企業において導入・活用が進み、ビジネスの可能性を広げています。さらにそこにビジネスの問題解決能力・実行力を高めうる因果推論AIが組み合わさることで、単なる可能性をこえて、実際のビジネス成果が次々に創出されていく、そのような未来も近そうです。生成AIは新しいAIの時代を開きましたが、因果推論AIの登場と普及は、我々をその次のステージへと進めていくことでしょう。AGI (汎用人工知能) の到来もより現実的なものになるといえます。

人間がやるべきこと

これからのAIによるさらなる進化まで言及した上で、最後に、「人間がやるべきこと」についても触れたいと思います。

生成AIと因果推論AIが多彩な成果を創出する、そのような時代にあって、人間がやるべきことは何か。それは間違いなく、「問いを立てる」ことであり、当事者として「挑戦すること」であり、「社会問題を解決していくこと」です。生成AIや因果推論AIが行っていることは、あくまで、「インプットから次を予測する」ことや、「対象となることを解析していく」ことでしかありません。それらは入力されたタスク＝「問い」に応えているのみです。つまり、自ら「問い」を立てることはできません。

どのような「問い」を立てるべきか。そして、そこから見出されたアイデアや実行計画を実際に「挑戦」して実行していき、「様々な社会問題を解決する」という広がりをもった善をなすこと。それこそが人間にしかできないことです。便利だからといって単にAIに自分の作業を任せていく、組織における省力化や自動化を図っていく、のではなく、AIとともに新しい時代を拓き、豊かな社会を創っていくような、そのような視点をもって、大きなスケールで挑んでいくことが肝要です。そのためにも、自分のパーパスを大切にして内なる想いを解き放っていただければと思います。

参考文献

この記事が気に入ったらサポートをしてみませんか？