OpenAIのストロベリーの仕組み ― "すべてを支配する一冊の教科書" ― 私の推測

2024年8月30日 22:05

皆さん、こんにちは。頭が冴えてしまって眠れません。ストロベリーの仕組みが分かったと思います。冗談ではありません。ストロベリーについてご存じない方のために説明すると、QARストロベリーはOpenAIからのリークで話題になっています。現在の噂では、もちろんただの噂ですが、後で撤回されるかもしれません。ストロベリーは複雑な数学の問題を解くことができるそうです。また、合成データについても話題になっており、その合成データがプロジェクトOionの訓練に使用されるそうです。
合成データの生成を解決したという話がありましたが、私は2年以上前から合成データについて話していました。GPT-3を使って合成データを作成し、ファインチューニング用の合成データセットを作っていたのです。これを共有するのは自慢ではありません。まあ、少しは自慢かもしれませんが、私がしばらくこれに取り組んでいたことを指摘したいのです。OpenAIのフォーラムでも、長い間オープンに共有してきました。つまり、合成データについては私が実際に世界をリードする専門家の一人だということを覚えておいてください。
次に潜在空間活性化について話したいと思います。基本的に、私たちが気づいたのは、これらのモデルを巨大なデータセットで訓練すると、完全に結晶化されていなくても、多くの埋め込まれた知識があるということです。結晶化されていないというのは、モデルは物事を知っていますが、それらを組み立てなければならないということです。これは人間の脳の働き方にとてもよく似ています。例えば、あなたがよく知っていることについて誰かと会話をしているとき、あなたが今まで考えたことのない質問をされたことはありませんか？その瞬間に、あなたはすべてのドットをつなげて、何かを言い出し、「わあ、自分が思っていたよりもそのことについてよく知っていたんだ」と気づくことがあります。それが潜在空間活性化です。大規模言語モデルにおける潜在空間活性化の等価物です。私は10ヶ月前からこれに取り組んでおり、動画も作成しました。そのデータは公開されています。
次に、ストロベリーがどのように機能すると私が考えているかを、Claudeを使った一般的な例で非常に高いレベルで示したいと思います。私がその仕組みを知っていると思う理由は、18ヶ月前に立ち上げた、結局うまくいかなかったスタートアップでこれに取り組んでいたからです。そのスタートアップで、サーフェスプレートと呼ぶコンセプトを開発していました。サーフェスプレートは3つのモデルの組み合わせになるはずでした。ジェネレーター、つまり専門家モデル、そして専門家モデルに「これについて何を知っていますか？」と尋ねる質問者、そして3番目のモデルとして出力の質を評価する採点者があります。これらはすべて現在のチャットボットで行うことができます。
この最初の例では、私がこの質問をしているのではなく、専門家モデルに質問して、そこからすべての情報を引き出し、潜在空間活性化を作り出すように微調整または指示されたチャットボットだと想像してください。「あなたはこれについて深いレベルで知っていることを知っています。今、それについて知っていることをすべて教えてください」と言って、それを結晶化するのです。AI Explainedのフィリップが取り上げた「教科書がすべて」という論文を覚えているかもしれません。私たちが発見したのは、高度に管理された合成データは、実際にこれらのモデルの訓練により効率的だということです。
この最初の例では、「物理学について高いレベルですべてを教えてください。トピックYYYに繰り返し掘り下げていきます」と言いました。そしてClaudeは喜んで物理学の上位10カテゴリーを生成しました。次に私は「素晴らしい、基本的な力と粒子について詳しく説明してください」と言いました。なぜなら、それが最初のものだったからです。データを再帰的に検索することを覚えておいてください。QARが行うのは、明らかに再帰的な検索アルゴリズムです。数学をどのようにカバーするかについては、よく分かっていません。おそらく何か見落としているのでしょうが、少なくとも合成データを生成する方法は分かっています。十分なトークンがあれば、これらのモデルで人間の知識すべてを再帰的に生成したり、合成したり、潜在空間活性化を行うことができ、それを蒸留して新しい接続を作ることもできます。
基本的な力と粒子は、最初はたった3つの箇条書きでしたが、次のチャットでは、覚えておいてください、これにはあまり知性は必要ありません。別のモデルを簡単に微調整して、単に質問者にすることができます。そして「もちろん」と言って、基本的な力についてさらに詳しく説明します。そして、重力が最初のものなので、私は基本的に二分探索木を再帰的に進んでいきます。「重力について知っていることをすべて教えてください」と言うと、どんどん進んでいきます。繰り返しますが、質問して潜在空間活性化を作り出し、それらを作成するのにそれほど多くの知性は必要ありません。そして、情報を合成しているのです。
次に、3番目のモデルに渡します。この場合、「あなたはデータの採点者です。テキストの一部を与えるので、ルーブリックを使って採点してください」と言いました。私たちが長い間前に発見したのは、多くの人が独立して発見したことですが、言語モデルは判別が非常に得意だということです。ジェネレーターと判別器がありますが、この場合は専門家、質問者、判別器があります。特に採点方法と基準を伝えれば、互いをルーブリックで採点するのが非常に得意です。
私は完全なルーブリックは与えませんでした。完全なルーブリックであれば、「グレード1はこれ、グレード2はこれ、グレード3はこれ」というようになります。しかし、最初のサンプルを与え、これは他の会話からコピーしたものですが、5段階評価で5を与えました。私はそれに近いと思いますが、特に包括的ではないと思います。これを行う理由は、サンプルを生成する際に、すべてのサンプルを採点し、基本的に下位%のサンプルを破棄するためです。そうすることで、合成されたデータセットを常に最高品質の情報に精製しています。
次のサンプル...おっと、間違えました。はい、これが次のサンプルです。採点するのを見てみましょう。再び5段階評価で5を与えました。改善の余地があると思います。基本的に、人間が知っているすべてのことの教科書を再帰的に書いているのです。これが私が思うストロベリーの仕組みです。世界中のすべてのテキストデータで既に訓練されたこれらのモデルを使用することで、彼らは人間が知っているすべてのことを知っています。それが十分に訓練されているかどうかにかかわらずです。再帰的に教科書を生成し、専門家が基本的なテキストを書き、質問者がそれについて知っていることを尋ね、3番目のモデルがそれがよく書かれているかどうかを判断しているのです。
これはいくつかの微調整されたモデルで行うことができると想像できます。一つは再フォーマットを行うものかもしれません。実際に実験としてやってみましょう。別のチャットを作成し、「あなたの目的は、私が与えるデータに基づいて教科書のセクションを書くことです。最高の知的レベルで包括的に書いてください。ドメインの専門家として、私が与える基本情報について、そのトピックに関するあなたの持つすべての知識を詳しく説明してください」と言います。
これが4番目のモデルかもしれません。これは単なる草案作成者です。どうなるか見てみましょう。「もちろん、喜んで...」と言って、実際にClaudeがアーティファクトを生成しています。ここで章を生成しています。もし私にお金と時間とコンピューティング時間があれば、「デイブ、潜在空間活性化を使って、すべてを支配する一つのファインチューニングデータセットを作ってくれ」と言われたら、これが私のやり方です。これらのモデルを使って、基本的にすべてを支配する一冊の教科書を繰り返し生成するでしょう。これが私のアプローチ方法です。これがどれだけ進んでいて、どれだけ速いかを見てください。ClaudやGPT-4、あるいは何でもいいですが、それらの多くのインスタンスが並行して動作し、文字通り人間の知識のあらゆる領域を繰り返し解きほぐしていると想像してください。これが私が考えるOpenAIのやり方であり、正しければ、これがGPT-5またはGPT-6（どちらかはわかりません）を訓練している方法です。
繰り返しますが、欠けている部分は、数学をどのように解決したかがわからないということです。同じことをして、基本的にジェネレーターに「このLaTeX式を書き出して、これを論理的にどのように解きほぐすかを考えてください」というようなことを頼んだのでしょうか。もしそれを解明したら、別の動画を作るかもしれません。
この動画から多くのことを学んでいただけたと思います。間違っているかもしれませんが、GPT-2以来モデルのファインチューニングを行ってきた者として、これが私のアプローチ方法です。それではみなさん、お元気で。

この記事が気に入ったらサポートをしてみませんか？