見出し画像

OpenAI o1-preview/mini:複雑な問題解決を加速する推論モデル

こんにちは、スクーティーという会社の代表のかけやと申します。

弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。

OpenAI社が、2024年9月12日、高度な推論能力を備えたAIモデルシリーズ「OpenAI o1」を発表しました

これは、人間のように思考プロセスを用いて複雑な問題に取り組み、より洗練された、高精度なアウトプットを生成するAIモデルです。第一弾として、先行体験版の「o1-preview」と、その軽量版である「o1-mini」がリリースされ、世界中の研究者や開発者から大きな注目を集めています。

​本記事では、OpenAI o1-preview/miniの技術的な詳細、従来モデルとの比較、ベンチマーク結果、ユースケース、そして安全性について、詳細に解説していきます。

最後には、実際にo1-miniを使って、出力をGPT-4oと比較していますので、ぜひそちらもご覧ください!


参考までに、前回のOpenAI社のGPT-4o公開時の記事は「【とにかくすごい】GPT-4oとは?最新モデルと新機能のまとめ」をご覧ください!

OpenAI o1-preview / mini : 推論能力を飛躍的に向上させたAIモデル

OpenAI o1は結局なにがすごいの?

  • 人間のように思考する「思考の連鎖(CoT)」: OpenAI o1は、人間が複雑な問題を解くプロセスを模倣した「思考の連鎖」を用いることで、段階的に問題を分析し、解決策を導き出すことができます。

  • 専門家レベルの能力: OpenAI o1は、数学、コーディング、科学といった専門性の高い分野において、人間の専門家レベルの能力を示しています。

  • 安全性と倫理性への配慮: OpenAI o1は、安全規則を遵守し、有害なコンテンツを生成しないように設計されています。また、倫理的な行動を促進し、偏見を排除するための技術も採用されています。

OpenAI o1-preview:GPT-4oを超える推論能力で複雑な問題を解決

OpenAI o1-previewは、「思考の連鎖(Chain of Thought)」と呼ばれる技術を用いることで、複雑な推論タスクを人間のように多段階的に処理し、高度な問題解決能力を実現しています。

o1-previewは、GPT-4oの課題であった複雑な推論能力を大幅に克服し、人間のように思考プロセスを用いることで、より高度な問題を解決することを可能にしています。特に、論理的思考、戦略的計画、問題解決能力を必要とするタスクにおいて、その真価を発揮します。

​o1-previewはGPT-4oの次のバージョンではなく、新しい言語モデルになります。

o1-previewは、現時点では、ChatGPTのウェブ検索やファイルアップロードといった機能の一部を備えていません。そのため、一般的なケースでは、GPT-4oの方がまだ優れている可能性があります。しかし、複雑な推論タスクにおいて、o1-previewはAIの可能性を新たなレベルへと押し上げており、今後のAI開発における重要なマイルストーンとなることが期待されます。

OpenAI o1-mini:STEM分野の推論に特化し、高速性と費用対効果を追求

OpenAI o1-miniは、o1-previewの推論能力を維持しながら、処理速度と費用対効果を大幅に向上させた軽量版モデルです。o1-miniは、o1-previewと比較して、処理速度が3〜5倍高速であり、利用コストは80%も安価です。

o1-miniは、STEM分野(「Science(科学)」「Technology(技術)」「Engineering(工学)」「Mathematics(数学)」)、特に数学やコーディングに特化して学習されており、これらの分野における推論タスクにおいて優れた性能を発揮します。o1-previewと同様に、o1-miniも「思考の連鎖」を用いることで、複雑な問題を人間のように段階的に解決することができます。

o1-miniは、広範な世界知識を必要とするタスクでは、o1-previewやGPT-4oほどの性能を発揮しない可能性があります。これは、o1-miniがSTEM分野に特化して学習されており、一般的な知識の学習量がo1-previewよりも少ないためと考えられます。しかし、限られたリソースで高精度な推論能力を必要とするアプリケーションにとっては、o1-miniは非常に強力で魅力的な選択肢となります。

OpenAI o1のベンチマーク結果

​OpenAI o1-preview/miniは、様々なベンチマークにおいて、従来のAIモデルを凌駕する性能を示しており、AIの推論能力を新たなレベルへと引き上げています。

以下のグラフは、OpenAI社が公開している、o1の数学、プログラミング、PhDレベルの科学分野における、GPT-4oとの能力の比較です。GPT-4oよりもスコアが圧倒的に良いことがわかります。

出典:https://openai.com/index/learning-to-reason-with-llms/

数学:AIMEで全米上位500人レベルのスコアを達成

高校生の数学能力を測るAIME(American Invitational Mathematics Examination)において、o1は、単一サンプルで74.4%(15問中11.1問)を解決し、64サンプルのコンセンサスでは83.3%(15問中12.5問)、学習済みスコアリング関数で1000サンプルを再ランク付けすると93%(15問中13.9問)を達成しました。

​このスコアは、全米の上位500人に入るレベルであり、国際数学オリンピック(IMO)の代表選考会への参加資格を得られるほどの高得点です。

出展:https://openai.com/index/learning-to-reason-with-llms/ モデルの学習時間共にAIMEのスコアが伸びていることがわかります

コーディング:Codeforcesで上位89%にランクイン、HumanEvalでも高精度を実現

OpenAI社は、OpenAI o1をベースにプログラミング能力を強化したモデルを開発し、国際情報オリンピック(IOI)で人間と同じ条件下で競わせました。結果は213点を獲得し、上位49%にランクイン。これは、提出戦略によってランダム提出より約60点高いスコアを達成しました。

​提出回数制限を緩和した場合、金メダル基準を上回る362.14点を獲得しました。また、Codeforcesのシミュレーション評価では、o1ベースのモデルはEloレーティング1807を達成し、上位93%のプログラマーを上回るパフォーマンスを示しています。

o1-miniに関しては、Codeforcesにおいて1650 Eloを獲得し、o1(1673 Elo)に匹敵する、o1-preview(1258 Elo)を上回る成績を収めたそうです。このスコアはCodeforcesのプログラマーの上位86%に相当します。さらに、o1-miniはコーディングベンチマークHumanEvalや高校生レベルのサイバーセキュリティ競技CTFでも優れた成績を示しています。

​これらの結果は、o1-preview/miniが高度なコーディング能力を備えており、人間のプログラマーと競合できるレベルに達していることを示唆しています。o1-preview/miniは、コード生成、コードレビュー、バグ修正といった様々なコーディングタスクを自動化することで、ソフトウェア開発の効率化に大きく貢献することが期待されます。

出典:https://openai.com/index/learning-to-reason-with-llms/

科学:GPQA Diamondで人間の専門家を凌駕する精度を実現

科学分野の質問応答ベンチマーク「GPQA Diamond」において、o1は、人間の専門家を上回る精度を達成し、世界に衝撃を与えました。これは、高度な専門知識を必要とする科学分野において、AIモデルが人間の専門家を凌駕した初めての事例です。

o1-previewもGPQA Diamondにおいて73.3%、o1-miniは60.0%の正答率を達成しており、どちらもGPT-4oの50.6%を大きく上回っています。

​o1-preview/miniは、科学論文の読解、実験データの分析、新薬の開発といった様々な科学研究を支援することで、科学技術の発展に大きく貢献することが期待されます。

出典:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

o1-miniは​幅広い世界知識を必要とするMMLUではGPT-4oに及ばず

57の異なる分野を網羅した多肢選択式問題集「MMLU」において、o1は92.3%、o1-previewは90.8%の正答率を達成し、GPT-4oの88.7%を上回っています。しかし、o1-miniは85.2%と、GPT-4oよりも低いスコアとなっています。

​これは、o1-miniがSTEM分野に特化して学習されており、MMLUのような幅広い世界知識を必要とするタスクでは、GPT-4oほどの性能を発揮できないためと考えられます。

出典:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

人間による評価:推論重視の分野ではo1-preview/miniが優勢

OpenAI社は、人間による評価実験も実施しています。この実験では、評価者がo1-preview/miniとGPT-4oの回答を比較し、どちらの回答が優れているかを判断するというものです。

​その結果、データ分析、コーディング、数学といった推論重視の分野では、o1-preview/miniの回答がGPT-4oの回答よりも優れていると評価されました。

しかし、文章作成や翻訳といった言語重視の分野では、GPT-4oの回答の方が優れていると評価されました。これは、o1-preview/miniがSTEM分野に特化して学習されており、言語生成能力においてはGPT-4oほどの性能を発揮できないためと考えられます。

下の図は縦軸が「GPT-4oよりもいい」と回答した割合です。つまり50%だとどちらともあまり変わらない評価ということで、50%より上の場合はo1のほうがGPT-4oよりもいいと評価されているということになります。

右の3つのグラフ(プログラミング、データ分析、計算)がGPT-4oよりもいい評価になっていることがわかります。

出典:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/


​ユースケース

​OpenAI o1-preview/miniは、その高度な推論能力によって、様々な分野における問題解決を支援し、人間の能力を拡張する可能性を秘めています。

プログラミング:ソフトウェア開発を加速する強力なツール

o1-preview/miniは、高度なコーディング能力を備えており、ソフトウェア開発の効率化に大きく貢献することが期待されます。例えば、コード生成、コードレビュー、バグ修正といった様々なコーディングタスクを自動化することで、開発者はより創造的な仕事に集中することができるようになります。

この動画では、o1-previewを使ってHTML、JS、CSSでスネークゲームを実装しています。次に、ゲームをより難しくするため、"AI"の文字の形をした障害物を追加するように指示しました。o1-previewは指示通りにコードを修正し、画面上に"AI"の形をした障害物が配置されたスネークゲームを作成しました。

この動画では、Transformerの授業でSelf-Attention機構を視覚的に説明するためのツールを作りたいと考えていたものの、複雑な仕様を満たすコードを自身で書くスキルがないため、o1-previewにコード生成をテキストで依頼する、という様子を説明しています。

o1-preview/miniは、初心者プログラマーの学習支援ツールとしても活用が期待されます。o1-preview/miniは、コードの書き方やデバッグ方法をわかりやすく説明することができるだけでなく、プログラミングの基礎概念を理解するためのインタラクティブな学習環境を提供することができます。

科学研究:科学技術の発展を加速するAI研究助手

o1-preview/miniは、科学論文の読解、実験データの分析、新薬の開発といった様々な科学研究を支援することで、科学技術の発展を加速させる可能性を秘めています。

​例えば、o1-preview/miniは、膨大な量の科学論文を自動的に解析し、重要な情報を抽出することができます。また、o1-preview/miniは、実験データを分析し、仮説を検証するための統計モデルを構築することができます。さらに、o1-preview/miniは、新薬候補化合物の設計や薬効予測を行うことができます。

以下の動画では、遺伝学者であるKatherine Brownstein氏が、o1-previewが希少疾患の遺伝子研究にどのように役立つかを説明しています。

​従来は論文を一つずつ調べていた作業が、o1-previewを使うことで、必要な情報を素早く要約したり、特定の遺伝子の発現部位や機能に関する情報を簡単に得たりすることができるようになったそうです。

数学:複雑な数学の問題を解決し、新たな数学的理論の発見を支援

o1-preview/miniは、複雑な数学の問題を解くためのアルゴリズムを設計したり、数学的な表現を簡略化したり、変形したりすることができます。また、現実世界の現象を数学的にモデル化することも可能です。

以下の動画では、o1-previewに複雑な年齢に関するなぞなぞを解かせています。

問題は「王女の年齢は、王子が王女の年齢の2倍になった時の王子の年齢と同じである。王子の年齢は、王女の年齢が現在の2人の年齢の合計の半分だった時の王子の年齢の2倍である。」というもので、人間でもすぐに理解して解くのは難しい問題です。

o1-previewは、思考の連鎖を用いて問題を分析し、変数を設定、条件を整理して数式に落とし込み、最終的に「王女の年齢は6k、王子の年齢は8k(kは任意の自然数)」という正しい答えを導き出しました。

その他:教育、金融、法律…様々な分野での応用

o1-preview/miniは、上記以外にも、教育、金融、法律など、人間の思考過程を必要とする複雑なタスクであれば、幅広い分野で応用が可能です。

  • 教育: o1-preview/miniは、生徒一人ひとりの学習進度や理解度に合わせて、個別最適化された学習教材や指導を提供することができます。

  • 金融: o1-preview/miniは、膨大な金融データを分析し、市場の動向を予測したり、投資戦略を立案したりすることができます。

  • 法律: o1-preview/miniは、法律文書の解釈や判例調査を支援することで、弁護士の業務効率化に貢献することができます。

安全性と倫理性を重視した開発

OpenAIは、o1-preview/miniの開発において、安全性と倫理性を重視しています。o1-preview/miniは、有害なコンテンツを生成しないように、倫理的に問題のある行動をとらないように、そしてプライバシーを侵害しないように設計されています。

有害なプロンプトに対する拒否、偏見の排除、倫理的な行動

o1-preview/miniは、安全規則とその文脈における推論方法を学習することで、より効果的に安全規則を適用することができます。例えば、ユーザーがo1-preview/miniに違法な行為を促すようなプロンプトを与えた場合、o1-preview/miniは思考の連鎖の中でそのプロンプトが安全規則に違反することを認識し、拒否することができます。

また、o1-preview/miniは、学習データに含まれる偏見を排除するために、様々なバイアス軽減技術を採用しています。さらに、o1-preview/miniは、倫理的に問題のある行動をとらないように、倫理ガイドラインに基づいて設計されています。

ジェイルブレイクテスト、バイアス検出テスト、倫理評価テスト

​OpenAIは、o1-preview/miniの安全性を評価するために、様々な安全性テストを実施しています。これらのテストには、モデルが安全規則を遵守しているかどうかを確認するための「ジェイルブレイクテスト」、モデルが偏った情報を生成していないかどうかを確認するための「バイアス検出テスト」、モデルが倫理的に問題のある行動をとっていないかどうかを確認するための「倫理評価テスト」などが含まれます。

GPT-4oとo1を比較する

ここまでOpenAI o1-preview/miniについて長々と書いてきましたが、文章生成はGPT-4oのほうがよく、プログラム生成はo1-miniのほうが良さそうなので、2つのテーマで出力を比較してみます。

日本の伝統大喜利

文章生成能力を比較するために、以下のプロンプトを入力し、出力を比較しました。

​日本の伝統芸能「大喜利」をやって、私を爆笑させてください。
お題:そんな事までできるの!?最新のAIでは何ができる?
回答は10個出してください。

GPT-4oの出力
o1−miniの出力

GPT-4oとClaude 3.5 Sonnetの勝負の時もそうでしたが、GPTはお笑いのセンスが全くないようです。o1-miniのほうは大喜利になっていないので、まだGPT-4oのほうがいいのかな・・・

o1-miniのほうは、こんなプロンプトでもちゃんと思考の連鎖を開始しているところがなんかシュールで、違った面白さを与えてくれました。

オリジナルゲーム実装

今後はo1-miniの土俵であるプログラミングをさせてみます。以下のプロンプトを入力しました。

​以下の##条件に厳密に従い、ゲームを実装してください。

##条件
・ブラウザのみで動作するゲームを実装してください。
・「ぷよぷよ」をモチーフにしつつ、ルールやデザインを若干変えて新しいゲームを作ってください。そのままパクるのは許しません。
・「もふもふ」というゲーム名で、柴犬がメインキャラクターにしてください。
・ユーザーがもふもふ感「Fluffy feeling」を感じることができる要素を入れてください。
・背景や落下物に関しては、デザインも制作してください。
・全コードを一つのファイルに纏めてください。


GPT-4oの出力
o1-miniの出力

これは圧倒的にo1-miniの勝利でした!

まず、出力の速さが全く違います。o1-miniのほうが体感で5倍位速かったです。

出来栄えですが、GPT-4oの方はそももそも操作ができず、ゲームと言える代物ではありませんでした。o1-miniは、ぷよぷよではなくテトリスになってしまっていた点と、あるところから右に動けないというバグはあったものの、ちゃんと操作でき、一応ゲームとして成立していました。

※もふもふ感がまったくないのは残念ですが

ということで、o1-miniのプログラミング能力がGPT-4oよりも高いことは体感できました!

最後に

最後までお読みいただき、ありがとうございます!

​弊社では、LLM(大規模言語モデル)やアーキテクチャの選定、技術検証、生成AIを使用したプロトタイピングやシステム開発、お客様社内での啓蒙活動等を対応させていただく「生成AIコンサルティング」サービスを提供しています。

また、業務利用できるChatGPTのような仕組みである「セキュアGAI」も提供しています。

この記事は私が経営する株式会社スクーティーのコーポレートブログの下記記事を焼き直したものです。


この記事が気に入ったらサポートをしてみませんか?