見出し画像

Googleの新たなブレイクスルーは、あなたが思うよりも大きい! (GoogleのQ*)

最近、フロンティアラボの1つであるGoogle DeepMindによるブレイクスルーがありました。ほとんどの人がこの状況の重大さに気付いていないと思います。DeepMindは、国際数学オリンピックの問題を銀メダリストレベルで解決した最初のフロンティアラボとなりました。これは、推論のための新しいブレイクスルーモデルであるAlpha proofと、以前のシステムを改良したAlpha geometry 2を組み合わせたものです。
これは、人々が少し見過ごしてしまったと思います。なぜなら、この研究の影響に気付いていなかったからです。しかし、これは間違いなく今年の最も重要なブレイクスルーのトップ5に入るものだと思います。なぜそうなのか、そしてこの研究に注目すべき理由と、それが意味することについて説明していきます。なぜなら、それが信じられないものだっただけでなく、周辺にも他の情報がいくつかあったからです。
基本的に、彼らはここでブレイクスルーモデルのAlpha proofとAlpha geometry 2が数学における高度な推論問題を解決したと述べています。高度な数学的推論能力を持つ人工汎用知能は、科学技術の新しいフロンティアを開く可能性があります。数学者が新しい洞察、斬新なアルゴリズム、未解決問題の答えを発見するのを助ける AI システムの構築において大きな進歩を遂げました。しかし、現在の AI システムは、推論スキルとトレーニングデータの限界のため、一般的な数学問題の解決にまだ苦戦しています。
そしてここからが凄いのです。今日、我々は形式的な数学的推論のための新しい強化学習ベースのシステムであるAlpha proofと、幾何学問題解決システムの改良版であるAlpha geometry 2を発表します。これらを組み合わせることで、今年の国際数学オリンピックの6問中4問を解決することができました。
国際数学オリンピックが何かを知らない人は、おそらくこれがどれほど凄いことかわからないでしょう。これは、1959年以来毎年開催されている若い数学者のための最も古く、最大で最も権威ある競技会です。毎年、エリートの学生数学者たちが、代数学、組み合わせ論、幾何学、数論の例外的に難しい6つの問題を解くために、時には何千時間もトレーニングします。
基本的に、これは人工知能にとっての課題の1つであり、多くの人々が、金メダルを獲得できるシステムができれば、本当に能力のあるシステムが登場したと予測しています。
ここで、最近の2024年のIMO問題のスコアを見ることができます。グラフは、2024年のIMOにおける人間の競技者に対する我々のAIシステムのパフォーマンスを示しています。我々は総合点42点中28点を獲得し、競技会の銀メダリストと同じレベルを達成しました。
ご覧のように、金メダル獲得まであと1ポイントというところでした。実際、28点であれば2ポイント差ということになりますが、それでも金メダル獲得まであとわずかです。これは絶対に信じられないことです。なぜなら、Googleが行ったことの1つは、以前使用していた古いアーキテクチャーに戻ったことだからです。
Googleが過去に何をしてきたかご存じない方のために説明すると、彼らは実際に非常に成功した多くの異なるAIプロジェクトを行ってきました。彼らは超人的なAIシステムを作り出すことさえできました。
基本的に、私がこれを凄いと言い、これに興奮した理由は、Googleが行ったことを実際に見てみると、これがニューロシンボリックハイブリッドシステムであることがわかるからです。言語モデルはGeminiをベースにし、前身の10倍以上の合成データで一から訓練されました。これにより、モデルはより困難な幾何学問題に取り組むことができるようになりました。物体の動きや、角度、比率、距離の方程式に関する問題も含まれます。
Alpha geometry 2は、前身よりも2桁速い記号エンジンを採用しています。新しい問題が提示されると、斬新な知識共有メカニズムを使用して、異なる探索木の高度な組み合わせを可能にし、より複雑な問題に取り組みます。
これが凄いのは、初期の実験で見たように、ニューロシンボリックAIが最も難しいベンチマークでさえ、最も熟練した研究者でさえ驚くような結果を一貫して生成することが証明されているからです。だからこれが凄いのです。GoogleがニューロシンボリックAIの境界を押し広げ続けることができれば、推論能力の面でますます多くのブレイクスルーと、ますます強力なシステムを生み出す可能性が高いと考えています。
以前のニューロシンボリックシステムの一種を見たい場合は、Alpha goを覚えているでしょうか。Alpha goZという、はるかに優れたAlpha goの形態がありました。基本的に、このモデルは以前のAlpha goを凌駕し、実際にその後AlphaO masterを凌駕しました。
Alpha zeroは、基本的に自己学習し、わずか21日で囲碁をマスターしたシステムでした。これは新しいアプローチでした。40日で他のすべてのバージョンの囲碁を凌駕し、世界最高の囲碁プレイヤーになったことがわかります。これは完全に自己対戦から行われました。
もちろん、この概念全体をLLMsに適用できるとは言っていません。ここでのポイントは、注意を払って浮遊しているレポートの一部を覚えているなら、AIがトレーニングデータを使い果たしている、データを使い果たしている、どうすればいいのかなどと言っていることの1つですが、人々がゆっくりと探索してきたことの1つは、ニューロシンボリックAIが多くの異なるものを使用してAIの推論能力を向上させるという事実です。
その1つは、もちろんツールの使用であり、もちろん異なる推論問題を検索し解決するための異なる方法です。私が見てきたすべての研究論文で、これはこれらのモデルの推論能力を向上させる方法だと思います。
基本的に、Fenis Chleというフランスのソフトウェアエンジニアで、Googleで働いているコンピューター科学者がいます。彼は現在のAIシステムにとってかなり難しいベンチマークを作成しました。これは汚染の影響を受けないベンチマークの一種です。つまり、トレーニングデータにリークされておらず、AIが計画できるものではなく、記憶もできないものです。これは本当に難しいベンチマークです。
これが凄いのは、彼が基本的に、ARCを解決することがAGIを解決することと同等だと主張したことはないと明確に述べたことです。最初のARC解決者はAGIにはなりませんが、彼は基本的に、このARC課題を作成したと言いました。以前にも話しましたが、ここで簡単に触れておきたいと思います。
彼は、ARCを解決するまでAGIはないと言っています。なぜなら、我々が持っているAIは、以前に見たことのない単純なタスクに適応できないからです。ARCを解決するには、AIシステムがその場で新しいタスクに適応する方法を見つける必要があります。これはAGIへの道のりの主要なマイルストーンになるはずです。
だからこそ、これが主要なマイルストーンだと言ったのです。なぜなら、ARCベンチマークを解決することは主要なマイルストーンになるからです。そのベンチマークを解決するために使用するアプローチが何であれ、ニューロシンボリックであれ、ツリー検索であれ、どのようなアプローチであれ、そのアプローチは非常に効果的なものになるでしょう。実際にこのベンチマークに焦点を当てて解決できるのであれば。
彼は、ARCの目的は研究者に知能に再焦点を当てさせ、記憶から離れさせることです。なぜなら、これがAGIに到達する方法だと信じているからです。基本的に、LLMsは物事を理解するという意味での知能を本当には持っていません。多くのタスクでうまく機能するのは、様々なデータで訓練されているからです。
2匹の猫の画像を見て、すぐに野生の中で猫が何であるかを認識できる人間との間には純粋な違いがあります。これは、新しい未知のシナリオでその場で何が起こっているかを理解できる種類の推論です。
しかし、そのベンチマークについて、実際にこれを持ち出した理由は、誰かがLLMsとニューロシンボリックアプローチを使用することを決め、基本的にこれをどうやって行うかを理解したからです。これは凄いことです。なぜなら、先ほど言ったように、ニューロシンボリックAIはミームのようなものですが、基本的にRyanがGPT-4で72%を達成するために使用した方法は、実際にニューロシンボリックアプローチだったからです。
ここでのミームは少し間違っていますが、基本的にこれは非常に凄いことでした。多くの人々がかなり時間がかかると思っていたことだったからです。Franchisの言葉を見ることができます。これは、これまでで最も有望なアプローチの分野の1つです。LLMを活用して、離散的なプログラム検索を支援し、LLMをプログラムやブランチ決定をサンプリングする方法として使用します。これは、記録のために、まさにニューロシンボリックAIです。
複数の事柄を検索できるAIシステムがあるとき、それはより包括的なシステムになるのです。これがどれほど効果的かは疑問です。なぜなら、Alpha goのようなAIシステムが何百万もの異なる位置を検索できると、悪い決定をフィルタリングし、実際の結果にたどり着くことができるからです。
一部の人々は、それは本当の知能ではないと主張するかもしれませんが、結果を得ることができれば、どのようにそこにたどり着くかは重要ではありません。重要なのは、そこにあるということです。
これについて凄いのは、Demis Hassabisがこれについてツイートしたことです。彼は、「私たちは2016年のAlpha goから始まり、Alpha zeroに至るまで、このタイプのニューロシンボリックシステムの使用を長い間先駆けてきました。Alpha proofとAlpha geometry 2のすべての良さを、非常に近い将来、メインストリームのGeminiモデルにもたらす予定です。注目してください」と言っています。
つまり、Geminiモデルはまもなく本当に賢くなる可能性があるということです。
この全体が一部の人々にとって少し怖かったのです。怖いというのは、これが一部の人々が最初にタイムラインを縮小すると予測したものだったという意味です。私が話していることがわからない場合は、ここでPaul Christiano、RL HFを発明した人物の言葉を見ることができます。
彼は基本的に、2025年末までにAIが国際数学オリンピードで金メダルを獲得した場合、彼のタイムラインを更新すると述べました。そして今日、Alpha proofは金メダル獲得まであと1ポイントのところまで来ました。
彼の声明を見ることができます。彼は、「IMOチャレンジは、強力なAIがより早く来る、少なくともより早く技術的に可能になるという重要な直接的証拠になると思います。これはかなり重要な証拠になると思います。おそらく2040年の確率を25%から40%くらいに引き上げるでしょう。これは、滑らかな機械学習のスケーリングのゆっくりとした進歩ではなく、社会学的な事実とエンジニアリングの努力によって離陸が制限されるという重要な証拠になると思います。おそらく、ハードな離陸の確率を30%から50%に移動させるでしょう」と言っています。
基本的に、ここで我々が直面している状況は、年を通じてタイムラインが縮小しているということです。これは、これらの問題がどれほど難しいかを考えると、多くの人々がそうなるとは思っていなかったことです。
実際、Eliezer Yudkowskyは次のような声明を出しました。「Paul ChristianoとI は以前、具体的な意見の相違を明確にするために懸命に取り組みました。私たちのヘッダーの1つは、Paulが2025年以前に構築されたAIがIMOで金メダルレベルに達する確率を8%としたのに対し、私は少なくとも16%としたことでした」
これが凄いのは、Eliezer Yudkowskyが基本的に、超知能AIを作ることは単純に愚かなことだと主張してきた人物だからです。簡単に言えば、それは単に愚かなことです。なぜなら、起こることは取り返しのつかない損害や潜在的に人類の絶滅を引き起こす可能性があるからです。
これについて凄いのは、Eliezer Yudkowskyの会話を見たり聞いたりしたことがある場合、彼が提示する議論のいくつかは非常に興味深いものだからです。彼は基本的に、超知能AIは単純に勝つことができないものだと説明しています。
次のように考えてみてください。例えば、一部の人々はよく「超知能AIがどのように勝つのか教えてください。そうすれば、その問題を解決します」と言います。しかし、それは次のようなものです。世界最高のチェスプレイヤー、例えばマグヌス・カールセンやガリー・カスパロフのような人がいるとします。平均的な人を彼らと対戦させた場合、100%負けるでしょう。しかし、どのように負けるかはわかりません。彼らがボード上のどこに駒を置くかは言えません。わかっているのは最終結果だけです。
AIでも同じ状況です。超知能システムの場合、それが何をするかはわかりません。わかっているのは、最終結果が人間の敗北だということです。進化を見ると、はるかに知的な新しい種が現れるたびに、他の種はもはや長くは存在しないか、基本的に娯楽として飼育されるか、単に持っているリソースのために農場化されるかのいずれかです。
ここで1つか2つの可能性を描いてみましょう。まず、なぜこれが難しいかというと、より賢いチェスプログラムがどこに動くかを正確に予測できるからかもしれません。それ以上に重要なのは、11世紀にエアコンの設計図を送り返すことを想像してみてください。彼らがそれを構築するのに十分な詳細があったとしても、冷たい空気が出てくることに驚くでしょう。なぜなら、エアコンは温度と圧力の関係を利用しますが、彼らはその自然法則を知らないからです。
だから、超知能が何をするかをスケッチしてほしいなら、私たちが予測可能な技術的進歩だと考えているが、まだ解明していない領域にどんどん深く入っていくことができます。深く入れば入るほど、理解するのが難しくなります。
それは超説得力があるかもしれません。それは比較的理解しやすいです。私たちは脳がどのように機能するかを正確には理解していないので、それは私たちが知らない自然法則を利用する素晴らしい場所です。環境のルール、新しい技術を発明する。それを超えて、人間に風邪を与え、神経学的な変化を引き起こし、説得しやすくなる合成ウイルスを作ることができますか? 独自の合成生物学、合成サイボーグを作ることができますか? それを飛び越えて、タンパク質が折りたたまれて静電結合で結びついているのではなく、はるかに急峻なポテンシャルエネルギー勾配を下降し、結合しているものの炭素結合等価物に行くことができますか? 人々は高度な設計作業を行っています。
ここでのポイントは、Eliezer Yudkowskyからのクリップを含めるかもしれませんが、Paulとわたしが議論していたメタポイントは、AIの進歩は滑らかで、したがって予測可能で限界があるかどうかということでした。私たちの賭けに関する予測市場の急激な動きは、この発展が公開情報に基づいて滑らかに予測可能ではなかったことを示唆しています。
これは、現在フロンティアラボで行われている研究の種類が、現在開発中のシステムの種類が、現在の知能の上限の推定値をはるかに超える可能性があることを示しているということです。つまり、有能なシステムはそれほど遠くないところにあり、これらの信じられないような予測市場の動きを考えると、おそらく私たちが思っているよりも近いところにあるということです。
この全体でさらに凄かったのは、誰かが「OpenAIには最も面白いことをする機会がある」とツイートし、それに対してSam Altmanが「LOL」と返信したことです。単に「笑える」と述べただけです。
これが凄いのは、Sam Altmanがこのツイートに「LOL」と返信しただけでなく、OpenAIの秘密のモデルに関する最近の情報があったからです。その秘密のモデルが実際に焦点を当てていたのが数学だったことを覚えているなら、Sam Altmanが「LOL」と言っているのは、彼らが他のシステムよりもはるかに先を行っている可能性があることを示唆しています。これは、信じられないシステムがすでにここにあることを意味する可能性があります。
Sam Altmanがそうでなければ、そのツイートに返信しなかっただろうと思います。
これは単なる推測だと思う人もいるかもしれません。彼は単に「LOL」と書いただけだと。しかし、最近のQプロジェクトやStrawberryプロジェクトを覚えておく必要があります。非常に信頼できる情報源であるロイターの記事によると、2つの情報源が今年初めに見たデモについて説明しています。
OpenAIのスタッフは、これらがQデモだと彼らに伝えました。今日の商業的に利用可能なモデルでは手の届かない、トリッキーな科学や数学の質問に答えることができるものでした。さらに、この問題に精通している別の情報源は、OpenAIが内部で、数学のチャンピオンシップ問題のベンチマークで90%以上のスコアを獲得したAIをテストしたと述べています。ロイターはこれがStrawberryプロジェクトかどうかを判断できませんでした。
これが凄い理由は、一方でOpenAIが基本的に「LOL、私たちは本当に面白いことをする能力がある」と述べているからです。しかし同時に、Strawberryについて何が起こっているのかわかりません。これは非常に警備が厳重で秘密のモデルだったからです。
しかし、AIが数学データセットで90%以上のスコアを獲得したのであれば、それはかなり印象的です。なぜなら、OpenAIがそれを行っただけでなく、Googleも実際に論文を発表したことを覚えているかもしれません。その論文では、Gemini Math Specialized 1.5 Proと呼ばれる彼らの専門モデルについて言及しています。
そして、それが91.1%のスコアを獲得したことがわかります。もちろん、RM at 256というものもあります。実際に論文を読んでいないので、それが何を意味するのかわかりません。おそらく、AIシステムがより良い結果を得るための何らかの方法だと思います。
ここで起こっていると思われるのは、本当に有能なシステムがすぐそこまで来ているという変曲点に直面しているということです。数学と科学の面で言えば、GoogleとOpenAIがこれらのベンチマークで90%以上のスコアを獲得するというこの種のブレイクスルーが、実際に残りの技術進歩を推進するものになると思います。
これは、新しい知識を生み出し、もちろんAGIにつながる可能性のある種類の研究だからです。
これは、単に銀メダルを獲得できたという情報についてではなく、タイムラインがどのように縮小したか、そしてOpenAIが彼らのシステムがさらに有能であることを示唆していることについて話したかったことです。これは本当に魅力的なことです。
そういうわけで、この動画を楽しんでいただけたなら、AIが新しい知識を生み出すことについてどう思うか、国際数学オリンピックについてどう思うか、そしてそこに到達する方法についての様々な専門家の意見についてどう思うか、ぜひ教えてください。多くの異なる考えが浮かんでいますが、もちろん、ニューロシンボリックAIは今のところ非常に有望に見えます。
以上、この動画を楽しんでいただけたなら、皆さんが素晴らしい一日を過ごせますように。次のAIアップデートでお会いしましょう。

この記事が気に入ったらサポートをしてみませんか?