熟考するAI「OpenAI o1」の凄さ -強いAI(汎用性AI)がついに見えてきた！

中山高史

2024年9月22日 17:51

　OpenAIが9月12日に、「Strawberry」と呼ばれていた次世代AIモデル「o1-preview」を発表しました。

　僕もリリース当日に使ってみて、速報の記事をアップしました。

　Chat-GPTの最新型であるにも関わらず、Chat-GPT4.5や５とせずに、あえて名前を「OpenAI o1」としたのには理由があると思います。

　今回リリースされたOpenAI o1-previewは、従来のChat-GPTの思考回路とは異なるAIの回路を持つのです。それゆえに新シリーズとして、OpenAI o1と銘打ったのだと思います。

　では、今までのChat-GPTとの違いは何かというと、推論能力、つまり論理的思考能力が高いことにあります。

　今回は、このOpenAI o1-preview版がなぜ、すごく画期的なAIなのか、今までのChat-GPTとは何が違うのか、について説明します。

Chat-GPTの仕組み

　Chat-GPTのGPTは、「Generative Pre-trained Transformer」の略ですが、Chat-GPTの動く仕組みで最も重要なのは、最後のT＝Transformerです。

　このTransformerは2017年にGoogleによって発表され、論文「Attention is All You Need」で紹介され、一躍有名になりました。

　Transformerを説明するのはとても難しいのですが、簡単にいうと、入力された文字列の中で重要な単語に着目して、文意をつかみ、入力文字列に続く文字を計算によって、順番に選び出す仕組みです。

【事例】Transformerの仕組みとは

　例えば、「私は今日の16時に公園に…」と入力されたら、その文字列に続く単語と一番ふさわしい単語を、関数計算して選びます。

　選択肢に「行く」「帰る」「飛ぶ」が出てきたとしたら、入力文字列に続く一番いいものとして「行く」を選択し、「私は今日の16時に公園に行く」という文章を作るといった感じです。

　Chat-GPTに代表される生成AIの大規模言語モデル（LLM）は、このように、Transformerの仕組みを使って、ひたすら計算を繰り返して入力された文字列にふさわしい文字列を選び出して生成しています。

　つまり、入力された文意を理解して、論理的に考えて、回答を返しているわけではなく、あくまで淡々と計算を繰り返し、それらしい言葉を返しているだけなのです。

　このことは、以前も記事に書きました。

Chat-GPTの限界　-計算が苦手な理由

　このように、Chat-GPTは入力されたプロンプトに対する回答としてふさわしい文字を順番に選んで回答をする仕組みで動いているので、会話をしたり自分の持つ知識から回答したりするのは得意ですが、計算などは苦手です。

　なぜなら、256 X 3427÷1.254=?という文字列に続く文字列として何が最適なものかは、この計算式の学習データがネット上のデータとしてほとんど存在しないので、うまく回答ができません。

　こうした簡単な計算だけでなく、遺伝子分析などの科学や物理などの分野になると、単に最適な文字列を関数計算で選ぶだけでは答えられません。

　そもそも、ヒトに近い人工知能であるためには、文字列の推測だけでは限界があるのです。

　そのため、推論＝論理的思考能力を持たないと、今のChat-GPT4oような弱いAIから強いAI＝AGI（汎用人工知能）に進化するのには、かなり無理がありました。

OpenAIの第5ステップ

　先月、OpenAIが発表した強いAI＝AGIへの進化のレベルを発表しました。
　設定した5段階は次のとおりです。

レベル１：チャットボット：会話型AI　←従来のChat-GPTのレベル
レベル２：推論者：人間レベルの問題解決能力を持つAI　←o1モデル
レベル３：エージェント：自ら行動を起こせるシステム　
レベル４：革新者：発明を支援できるAI
レベル５：組織マネージメント：組織の業務を遂行できるAI

　
　今回リリースしたo1は、数学問題や暗号解読など与えられた問題を推論して問題解決の方法を自分で考え実行し、回答を出しています。つまりレベル２をクリアし、部分的にはレベル3にも到達していると言えます。

　これは画期的な進歩なのです。

　o1-previewの特筆すべき点は、問題を深く考えた上で回答できることです。この能力により、物理学や化学、生物学などの難解な課題で博士課程の学生と同等の成績をおさめています。

　たとえば、国際数学オリンピックの予選問題の83%を正解したのに対し、従来のモデル「GPT-4o」の正答率は13%でした。また、国際プログラミングコンテストでは上位11%に入る成績を達成しています。

o1-previewはIQ120。やがて人類の上位5%へ

　　ではどの程度のIQ力があるのでしょうか？以下をご覧下さい。

　　o1-previewのIQテストの結果は黄色の「o1」と書いている山の頂点より右側にある丸のところで、値は120。これは人の平均IQ値である100を大幅に上回っています。ちなみに、従来のChat-GPT40は、山の左側の80程度。
　
　つまり、今まではIQにおいて、まだまだ人のレベルに達していなかった生成AIが、o1-previewの誕生により、人のIQを軽々と越えてしまったのです。

　また、今回リリースされたのはプレビュー版です。正式なo1モデルは、おおそらくIQが130近くに達すると思われます。

　これは、人類の上位5%に入る頭の良さで、もはや人の頭脳の能力をIQという観点では抜いています。

　OpenAのサムアルトマンCEOは、「o1-previewは、汎用的で複雑な推論ができるAIという新しいパラダイムの始まりです」と述べています。o1シリーズがこれまでのGPTシリーズと位置づけが異なる“ゼロリセット”されたモデルであることを強調しているという訳ですね。

　o1-previewは、思考の連鎖（Chain of Thought）」と呼ばれる手法を使うことで、推論能力を高めています。これが、従来のChat-GPTとは大きく異なるポイントです。

　また、自己強化学習により、性能を向上させているようです。

　Chain of Thought？、自己強化学習？．．．うーん．．．
　
　少し難しいですが、それぞれ簡単に記してみます。

【事例】Chain of Thought＝思考プロセスを模倣

　Chain of Thought（思考の連鎖）は、複雑な問題解決や推論タスクにおいて、AIモデルが段階的に考えを進めていく方法です。これは人間が問題を解く際の思考プロセスを模倣しています。

　言葉で書くとわかりにくいので、例を挙げて説明しましょう。

問題：「太郎は25歳です。彼の妹の花子は太郎より7歳年下です。太郎と花子の年齢の合計は何歳ですか？」

Chain of Thoughtを使用した解答プロセス：

①まず、太郎の年齢を確認します：太郎の年齢 = 25歳
②次に、花子の年齢を計算します：花子は太郎より7歳年下なので、花子の年齢 = 太郎の年齢 - 7 花子の年齢 = 25 - 7 = 18歳
③太郎と花子の年齢を合計します：合計年齢 = 太郎の年齢 + 花子の年齢合計年齢 = 25 + 18 = 43歳
④結論：太郎と花子の年齢の合計は43歳です。

Chain of Thoughtの例

　このように、Chain of Thoughtを使うと、与えられた問題を解決するためのステップを組み立てて、ステップバイステップで段階的に答えを導くことが可能になります。

　今までChat-GPTに複雑な質問をする場合、プロンプトに「ステップ・バイ・ステップで回答して」という記述をする方法が知られていましたが、これがまさに、Chain of Thoughtを使って回答してくれとお願いしているわけです。

　o1モデルは、その挙動をみると、内部で、Chain of Thoughtを自動的に実行し段階的に問題解決しています。

　o1モデルでは「ステップ・バイ・ステップで」と指示しなくても、AIが自分で、Chain of Thoughtの考え方に則り、どのような順番で考えればいいかを推論し、答えを出せるようになったということです。

　これは、とてつもなく画期的なことです。

　プロンプトの工夫はしないほうが、かえって、Chain of Thoughtが効果的にできるようなので、今後徐々にプロンプトエンジニアリング技術が不要になってくると思います。

学習とは？　推論とは？

　では、今回リリースされたo1モデルは、どのようにして、推論能力を身に着けたのでしょうか？

　その説明の前に、そもそも「推論」とは何かを、おさえておきます。

　生成AIには２つのフェーズがあります。１つが学習フェーズ、もう1つは推論フェーズです。

　学習フェーズでは、巨大なパラメータのモデルに様々なデータを学習させます。いわば、脳みその中に知識をとにかくため込み、最適な回答を取り出して答えられるようにしてきました。これを「学習」と呼びます。

　一方、僕たちが、Chat-GPTを使う場合、プロンプトを入力したら、Chat-GPTは、入力されたプロンプトにふさわしい回答を「思考」して回答します。これを「推論」と言います。

学習とは？　推論とは？

・学習：知識を習得して脳を作る（脳＝言語モデル自体そのもの）
・推論：聞かれた質問を理解し考え回答する（脳による回答能力）

　従来のChat-GPT4oまでは、言語モデル（LLM）のパラメーターと呼ばれる、関数計算する変数を増やし、大量のデーターを学習させることに尽力してきました。

　GPT3.5でパラメーター数が1750億、GTP4で1兆ともいわれ、とにかく巨大化したモデルを開発することで性能を上げてきました。

　ところが、最近になって、GPT4oだけでなく、GoogleのGemini Pro1.5やClaude3 Sonnet、Lama3.1など、GPT4に匹敵する大規模言語モデルが登場して、LLMの能力差がなくなってきています。

　これは何を意味するかというと、学習モデルを大きくしても、性能に限界が出始めているということですね。

「学習→推論の機能の能力向上」がカギ

　そこで、ここ1年ほどでOpenAIがとった戦略は、学習はもういいので、それよりもプロンプトに対して回答する能力を高める。つまり推論能力を高める方向に舵を切ったということです。

　この推論で性能を高める概念、それが「推論スケーリング」です。

　下の図にあるように、従来は上の棒グラフのように、シルバーと緑のtraining＝学習させることに、モデル開発の大半を費やしていましたが、o1モデルでは、下の棒グラフのように、ピンクのInference、すなわち推論（論理思考）の能力向上にも時間を費やし始めたのです。

　こうした動きは、Googleなどの論文でも明らかです。今後は、巨大なモデルを学習させる戦いから、推論力をいかに高めるか、要は知識より脳みその能力を高める戦いのステージに突入したということです。

　このことをAI業界では「推論スケーリング」と呼びます。推論機能を高めれば高めるだけ、生成AIの性能が上がっていく、とうことですね。

　この推論能力の根幹の技術は、前述のとおり「CoT：Chain of Thought」なのですが、では、このCoTの能力を高めるにはどうしたらいいか、というと、そのカギは、強化学習にあります。

強化学習とは

　　従来の大規模言語モデルと違って推論能力を高めるため、o1モデルでは強化学習という方法がとられています。

　強化学習とは、人間が新しい思考能力を身につける過程に似ていて、モデルが試行錯誤しながら学習する方法です。

　与えられた問題に対して、行動を選択し、その結果に応じて報酬を受け取ります。正しい方法なら多くの報酬を得ますが、間違った選択をすると報酬がもらえません。

　例えば、迷路を攻略する方法を身に着けようとします。AIは一歩ずつ迷路の進むのですが、壁にぶつかったらポイントを減らされ、前進できればポイントを加算されます。

　この方法は自動運転車の制御やロボットの動作最適化など、実世界の複雑な問題にも応用されています。強化学習の特徴は、明確な正解を与えられなくても、経験から学び、変化する環境に適応できる点にあります。

　これにより、囲碁チャンピオンを倒したAlphaGo〜AlphaZeroのように「自分で生成したデータで強くなり続ける」ループが完成するんですよね。

つまり、新しい大規模言語モデルの登場

　今回発表されたOpenAI o1は学習だけでなく、推論能力を持つという、生成AIのブレークスルーになる技術が実装されたもので、ただのバージョンアップではなく、新しい大規模言語モデルの登場です。

　ようやく、弱いAIから強いAIへの道筋が見えてきた画期的なAIが登場しました。

　「数学が解ける、PH-Dの問題ができる……だからなんなの？」「いまいちピンとこないな」、という感想が出てくるのは、もっともです。

　しかし、実はとんでもない進化を遂げています。

OpenAIの戦略？

　ここまで、長文をお読みいただきありがとうございます。

　ところで、気になりませんか？

　知れば知るほど、今回、「すごい進化をした」と思わせないような形でo1モデルがリリースされているように感じられます。

　これはOpenAIの戦略だと感じましたが、この点については、また別の記事に書いてみたいと思います。

この記事が気に入ったらサポートをしてみませんか？