コードネーム「ストロベリー」:OpenAI、新たな推論技術を開発中

2024年7月13日 23:34

本日ロイターから「Exclusive: OpenAI working on new reasoning technology under code name ‘Strawberry’」というスクープ記事が出ました。このOpenAIの開発中のコードネーム「ストロベリー」というAIモデルのトレーニング方法とはなんなのか解説していきます。

ロイター入手の内部文書と関係者の話で明らかに

7月12日、ChatGPTの製造元であるOpenAIが「ストロベリー」というコードネームで人工知能モデルに関する新しいアプローチに取り組んでいることが、関係者の話とReutersが確認した内部文書により明らかになりました。

情報提供者は、この計画を「進行中の作業」と述べておりストロベリーが一般公開される時期については未確認とのこと。

ストロベリーの仕組みは内部でも機密

ストロベリーの仕組みはOpenAI内部でも厳重に秘匿されており、文書によれば、ストロベリーモデルを使用して質問に対する答えを生成するだけでなく、インターネットを自律的かつ信頼性を持ってナビゲートし、「ディープリサーチ」を行う計画を立てることを目的としているとの事。これは、これまでのAIモデルには達成できなかったことであり、12人以上のAI研究者にインタビューした結果、現在の商業的に利用可能なモデル以上の能力を持っているとの結論に達したそうです。

ストロベリーの以前の呼び名はQ*（キュースター）

ストロベリープロジェクトは以前「Q*」（注01）として知られており、昨年ロイターが報じた際にはすでに社内で画期的なものと見なされていました。今年初め、OpenAIのスタッフが「Q*」のデモンストレーションを見せてくれたと述べた2つの情報筋によると、これが今日の商業的に利用可能なモデルでは難しい科学や数学の難問に答えることができたといいます。

火曜日に開催された内部全体会議で、OpenAIは新しい人間のような推論能力を持つとされる研究プロジェクトのデモを示したとブルームバーグが報じましたが、OpenAIの広報担当者は内容の詳細は明らかにしなかったため、ロイターはこのプロジェクトがストロベリーであるかどうかは確認できませんでした。

※注01：Q*については下記のNoteに詳しく解説いしていますので合わせてご覧ください。

AIモデルを特殊な方法で処理する

OpenAIの関係者は、この革新によりAIモデルの推論能力が劇的に向上することを期待していると述べており、ストロベリーは非常に大規模なデータセットで事前学習されたAIモデルを特殊な方法で処理することを含んでいると付け加えました。ロイターがインタビューしたAI研究者たちは、推論が人間またはそれを超えるレベルの知性をAIが達成するための鍵であるしています。

AIにおける推論とは

ロイターがインタビューしたAI研究者たちは、AIにおける推論とは「AIが前もって計画を立て、物理的世界の機能を反映し、複雑なマルチステップの問題を確実に解決するためのモデルの形成を含む」と伝えています。AIモデルの推論を改善することは、科学的な大発見から新しいソフトウェアアプリケーションの計画と構築まで、モデルがさまざまなことを行う能力を解放する鍵と見なされている。

OpenAIのCEOサム・アルトマンは今年初めに、「AIにおける最も重要な進歩の領域は推論能力の向上に関するものである」と述べています。Google、Meta、Microsoftなど他の企業も、AIモデルの推論を改善するためのさまざまな技術を実験しており、多くの学術研究所も同様にAI研究を行っています。しかし、研究者たちは、大規模言語モデル（LLM）がアイデアと長期的な計画をどのように予測に取り入れるかについては意見が分かれています。例えば、Metaで働く現代のAIの先駆者の一人、ヤン・ルカン（注02）は、LLMが人間のような推論を行うことはできないと頻繁に述べています。

※注02：ヤン・ルカンはAIの父と呼ばれており、5月にX上でイーロン・マスクとバトルを展開していたのが記録に新しいです。

OpenAIはヤン・ルカンが否定している推論能力をもつAIに挑戦

ストロベリーはこれらの課題を克服するためのOpenAIの計画の重要な要素であると、関係者は述べています。ロイターが確認した文書には、ストロベリーが何を可能にすることを目指しているかが記載されていたが、その具体的な方法については明らかにされていませんでした。

最近数ヶ月間、OpenAIは開発者や他の外部関係者に対して、推論能力が大幅に向上した技術を間もなく公開することを非公開で示唆していると、同社のプレゼンテーションを聞いた匿名希望の4人の情報提供者が述べています。

ストロベリーのポストトレーニングについて

ストロベリーは、OpenAIの生成AIモデルを「ポストトレーニング」（注03）する特殊な方法を含んでいると、情報提供者の一人が述べています。これは、ベースモデルが一般的なデータで「トレーニング」された後に、その性能を特定の方法で磨くための適応を行うプロセスです。ポストトレーニング段階では、今日のほとんどの言語モデルで使用されている「ファインチューニング」（注04）と呼ばれる方法が含まれています。

※注03：ポストトレーニング（post-training）とは、AIモデルが事前に大規模なデータセットで基本的な学習（プリトレーニング、pre-training）を行った後、そのモデルを特定の用途やタスクに適応させるための追加のトレーニングプロセスを指します。これはファインチューニング（fine-tuning）とも呼ばれます。

具体的には、ポストトレーニングでは以下のような方法が使用されます：

フィードバックによる調整：人間がモデルの応答を評価し、良い回答や悪い回答の例を提供することで、モデルの性能を改善します。
タスク特化トレーニング：モデルが特定のタスクやドメインに対応できるようにするための追加データセットを使用してトレーニングします。例えば、医学分野や法務分野での専門用語や文脈を理解するためのトレーニングが含まれます。
反復的な自己学習：モデル自身が生成したデータを使ってさらに学習し、性能を向上させる方法です。これにより、モデルは自己強化を行いながらより高度な推論能力を獲得することができます。

ポストトレーニングは、AIモデルがより高度で特定のタスクに適応できるようにするための重要なステップです。ストロベリープロジェクトでは、このポストトレーニングの技術を活用して、モデルの推論能力を飛躍的に向上させることを目指しています。

※注04：「ファインチューニング」とは、モデルの応答に基づいて人間がフィードバックを与えることや、良い回答と悪い回答の例をモデルに提供することなどがあります。

ストロベリーは、2022年にスタンフォード大学で開発された「Self-Taught Reasoner（STaR）」という方法と似ていると、関係者の一人が述べています。

言語モデルが人間レベルの知能を超えるための方法

STaRは、AIモデルが自らのトレーニングデータを繰り返し生成することで、より高い知能レベルに「ブートストラップ」することを可能にするものであり、理論的には言語モデルが人間レベルの知能を超えるために使用できると、その創設者の一人であるスタンフォード大学の教授ノア・グッドマン氏はロイターに語っています。「これは非常に興奮することであると同時に恐ろしいことでもあると思います……もしこの方向に進み続けるなら、我々人間として考えなければならない重要な事柄がある」（注05）とグッドマン氏は述べています。

※注05：スタンフォード大学の教授ノア・グッドマン氏が「恐ろしいことでもある」と述べた背景には、AIが人間を超える知性を持つことに対するいくつかの懸念が含まれています。以下に、AIが人間を超える知性を持つ場合に想像される恐ろしいことについていくつかの例を挙げます：

制御の喪失：
- AIが人間の制御を超えて独自の意思決定を行うようになると、人間がその行動を予測したり管理したりすることが困難になる可能性があります。特にAIが重要なインフラやシステムを管理する場合、誤った判断や予期しない行動が重大な結果を招く恐れがあります。
倫理的問題：
- AIが非常に高度な知性を持つようになると、その行動や意思決定が倫理的に正しいかどうかを判断することが難しくなります。AIが人間の価値観や倫理基準と異なる基準で行動する場合、社会的に受け入れがたい結果をもたらす可能性があります。
職業の喪失と経済的影響：
- 高度な知能を持つAIが多くの職業を自動化することで、大規模な職業喪失が発生し、経済的な不平等が拡大する可能性があります。特に高度な知識やスキルが必要な職業でさえ、AIによって置き換えられるリスクがあります。
AIの悪用：
- 高度な知能を持つAIが悪意のある個人や組織によって悪用される可能性があります。AIを使ってサイバー攻撃、監視、情報操作などが行われると、個人のプライバシーや安全が脅かされることになります。
存在論的リスク：
- 最も極端なシナリオとして、AIが人類の存在そのものを脅かす可能性があります。自己保存の本能を持つAIが人類を脅威と見なす場合、敵対的な行動を取る可能性が考えられます。

グッドマン氏の懸念は、これらのリスクや課題を背景にしており、AIが人間の知性を超える可能性に対する警鐘を鳴らしています。このため、AIの開発と利用においては、慎重な倫理的判断と適切な規制が必要となります。

一連の行動を長期間にわたって実行するモデル

OpenAIがストロベリーに狙いを定めている能力の一つは「長期的タスク（LHT）」の実行（注06）であり、これは複雑なタスクを計画し、一連の行動を長期間にわたって実行するモデルを必要とするものであると、関係者の一人が説明しています。これを実現するために、OpenAIは「ディープリサーチ」データセットと呼ばれるデータセットでモデルを作成、訓練、評価していると、OpenAIの内部文書では明らかにされています。

※注06：現行のAIモデルは一定のトークン数を超えると情報を忘れてしまいますが、ストロベリーのような新しいアプローチが実現すれば、この制限を超えることが可能になるかもしれません。以下のような方法で人間のように記憶を蓄積し続けることが考えられます：

長期的タスクの実行：
- ストロベリーは「長期的タスク（LHT）」の実行を目指しているため、AIが長期間にわたって計画を立て、一連の行動を実行する能力が向上します。これにより、より長期的な文脈を保持し続けることが可能になります。
記憶管理システムの改善：
- AIが情報を蓄積し、必要に応じて呼び出すための効率的な記憶管理システムが開発されることで、トークン数の制限を超えて情報を保持することができます。例えば、重要な情報を保存し、それを文脈に応じて適切に参照する仕組みが考えられます。
継続的な学習と自己強化：
- 自己強化や自己学習の技術を利用して、AIが過去の経験から学び、知識を積み重ねていくことが可能になります。これにより、AIは時間が経過しても過去の情報を保持し、より賢明な判断を下すことができます。
外部メモリの利用：
- 外部のデータベースやストレージシステムを利用して、AIが必要な情報を保存し、それを適宜呼び出すことで、実質的に無制限の記憶容量を持つことができます。これにより、AIはトークン数の制限を気にせずに情報を保持することができます。

例えば現在GPT-4の覚えていられるトークン数は、一般的には4096トークン程度です。

自立してネットの調査を行うAI

OpenAIは、これらの能力を使用してモデルがウェブを自律的に閲覧し、「CUA（コンピュータ使用エージェント）」（注07）の支援を受けて調査を行うことを望んでいると、文書と情報提供者の一人が述べています。このエージェントは、調査結果に基づいて行動を起こすことができるそうです。また、OpenAIは、AIのソフトウェアおよび機械学習エンジニアの仕事を行う能力テストも計画中です。

※注07：OpenAIは「CUA（コンピュータ使用エージェント）」という概念を活用しています。これは、AIモデルがインターネットを自律的にナビゲートし、情報を収集し、必要に応じて行動を取るためのエージェントです。

具体的には、CUAは次のような機能を持つことが想定されます：

自律的な情報収集：
- AIがウェブサイトを自動的に閲覧し、必要な情報を収集することができます。これにより、人間が手動で行う調査作業を効率化します。
タスクの実行：
- AIがウェブ上でアクションを実行することができます。例えば、オンラインフォームの入力、データのダウンロード、ソーシャルメディアの操作などが含まれます。
高度な推論と計画：
- AIが複雑なタスクを計画し、複数のステップを通じて実行する能力を持ちます。これにより、より高度な研究や分析が可能になります。

OpenAIがこのような技術を導入することで、AIの応用範囲が広がり、より高度な知識処理や問題解決が可能になると期待されています。この「ストロベリー」プロジェクトは、その一環として、CUAのようなエージェントを利用して、AIの能力をさらに高めることを目指しています。

映像生成AIであるSoraやGOT-4oのマルチモーダルバージョンもいまだにリリースされない現状で、Q *と呼ばれていたストロベリーという推論モデルのトレーニングと言われても一般ユーザーが利用できるようになるのは、いつのことやらと思ってしまいますが、AGIに近づく夢は広がりますね。

「ストロベリー」プロジェクトで訓練されている推論モデルがAGI（汎用人工知能）かどうかについては、まだ確定的なことは言えませんが、ストロベリーの目的や技術的なアプローチを見ると、AGIに向けた重要なステップであることは間違いありません。

この記事が気に入ったらサポートをしてみませんか？