見出し画像

OpenAI o1登場:推論能力が飛躍的に向上!プロンプト技術や活用法を紹介【ChatGPT】

こんにちは!AI-Bridge Labのこばです👋

みなさん、OpenAIの新しいAIモデル「o1シリーズ」のニュースはもうチェックしましたか?🤖✨

2024年9月12日、OpenAIが発表したこの新モデルは、これまでのAIモデルとは一線を画す高度な推論能力を持っているとのこと。特に科学、コーディング、数学分野での活躍が期待されています。

毎度思いますがOpenAI社の発表は、単にAIの性能向上や機能の追加というだけでなく、革新的な変化感を与えてくれるのでワクワクしますね。

今回は、o1シリーズ(o1 Preview/ o1 mini)について、その特徴やプロンプトの書き方、活用法を詳しく解説していきます。AIツールを使って業務効率を上げたい方や、最新のAI技術に興味がある方は、ぜひ最後までお付き合いください!


1.o1シリーズとは?

o1シリーズは、「o1-preview」と「o1-mini」の2つのモデルで構成されています。重要なのは、現在のPreview版と近く公開予定の「o1」モデルは別物であり、「o1」モデルは更に高性能であるという点です。

特徴的なのは、強化学習を用いた「Chain of Thought(思考の連鎖)」アプローチです。これにより、人間のように多段階の思考プロセスを実現し、複雑な問題解決を可能にしています。


この図は、o1シリーズが採用している「Chain of Thought」アプローチを視覚化したものです。問題理解から解決策提示まで、複数のステップを経て高度な推論を行う様子が分かりますね。

以下に、o1とo1-miniの特徴についてまとめます。

o1-previewの特徴

  • 複雑な推論タスクに特化

  • 問題解決前により多くの「思考時間」を確保

  • 段階的な問題解決能力が強化

o1-miniの特徴

  • STEM分野、特に数学とコーディングに特化

  • o1-previewの80%のコストで利用可能

  • 「思考時間」を確保するが、より高速な処理が可能

1-1.GPTシリーズのモデル別の性能比較

MMLU=言語理解能力
GPQA=科学
MATH=数学

2.驚異的な推論能力

OpenAIの公式ブログではo1モデルシリーズの性能評価について具体例が挙げられています。

公式の情報を見る限り、o1モデルは専門家の中のトップ層に迫る推論能力を持ちながら知識を活かして回答を生成できるようになったと言えると思います。

  1. 国際数学オリンピック予選レベルの問題解決能力 o1-previewは、国際数学オリンピック予選(AIME)で上位500人に相当する成績を収めました。

  2. コーディングコンペでトップクラスの成績 Codeforcesというプログラミングコンテストでo1-previewは89パーセンタイルにランクイン。

  3. 科学分野でPhDレベルを超える精度 物理学、生物学、化学の問題において、人間のPhD(博士号取得者)レベルの精度を超えています。

従来はGPT-4oなどの高性能なモデルであっても、意外とシンプルな計算問題やカウントが苦手だったり簡単なひっかけ問題に引っかかったりしていました。

私もこれを埋め合わせるためにPythonを実行させたり、システムプロンプトを修正したりといった対応を行っていましたが、今後はその必要もなくなりそうです。


3.o1モデル向けのプロンプト技術

GPT-o1向けのプロンプト作成のガイドラインを、一般的なAIモデルのプロンプト戦略と新しいモデルに特有の洞察を交えて以下にまとめました。
特に1~3は新たに留意すべき点になります。

  1. 明確さと具体性: プロンプトは明確で具体的にすることが重要です。従来のモデルでは細かな指示が必要だったかもしれませんが、GPT-o1は推論能力が向上しているため、簡潔な指示で十分です。ただし、不明瞭な点がないようにするために、明確さは引き続き大切です。

  2. コンテキストの提供: GPT-o1は推論力が強化されていますが、それでも適切な背景情報を与えることで応答の質が向上します。情報を詰め込みすぎる必要はありませんが、応答を適切に導くためのコンテキストを与えることが効果的です。

  3. 少ない方が良い: GPT-o1は理解力が向上しているため、詳細すぎるプロンプトは必ずしも必要ではありません。長い説明をするのではなく、必要な本質だけを伝えることで、モデルが自ら「考える」余地を与える方が効果的かもしれません。

  4. プロンプトエンジニアリングの技法:

    • ゼロショットおよび少数ショット学習: シンプルなタスクにはゼロショットでも十分ですが、複雑なシナリオには少数の例(少数ショット)が有効です。

    • Chain-of-Thought(CoT)プロンプティング: 複雑な推論を必要とするタスクでは、プロンプト内で段階的に思考するよう促すと良い結果が得られます。

  5. 役割の設定: モデルに特定の役割を与える方法は依然として効果的です。たとえば、専門家として応答するように指示することで、回答の深さやスタイルが変わることがあります。

具体例

抽象化された指示でも通りやすくなるので、たとえばこんな感じに書くイメージになるかと思います。

タスク: ある小説の登場人物の性格を分析する。

従来のモデルへのプロンプト:

小説「〇〇」の主人公〇〇の性格について、以下の観点から詳細に分析してください。

・外見
・言動
・周囲の人物との関係
・主要な出来事における行動
・作者の描写

o1モデルへのプロンプト:

小説「〇〇」の主人公〇〇はどのような性格の人物ですか?具体的なエピソードを交えて説明してください。


4.具体的な活用事例

今回はGPT-o1 Previewを使ってECサイトの在庫管理するスプレッドシートを作成してみます。

プロンプトはこちら

ECサイトの在庫を管理するための必要な機能および、関数、サンプルデータを含んだ
スプレッドシートをGASで作成してください。

出力結果はこちら

日本語部分が文字化けしましたが、そのままPDFにもしてみました

在庫管理シート実際に使ってみた

手順通りに進めるとエラーもなく、在庫更新できるメニューも追加され、さらに変更記録が更新されるようになっていました。

具体的な指示や方向性を決めてあげればもっと複雑なシートも作ることができそうです。

GPT-4oは、実装内容を列挙するだけでしたが、o1は手順書的に書いてくれるので、スプレッドシートの作り方を知らない初心者の方でもスムーズに進めることができると思います。

プロンプトで詳細に伝えなくてもユーザーフレンドリーの結果が得られるとなると、より利用者のハードルが下がっていくと感じました。

その他の活用事例

過去のGPTsやProjects,Gemsなどのカスタム指示をブラッシュアップするなど、システムプロンプトをより構造的で良い出力が期待できる内容に書き換えるタスクについては良い結果が得られています。

o1は回数制限があるので、他のLLMの効率を底上げするような使い方も良いと思います。


5.o1モデルシリーズの利用方法

o1 previewと o1 miniは、すでに一部のユーザーが利用可能となっています。

  • ChatGPT PlusおよびTeamユーザー:ChatGPT内で即日利用可能

  • 開発者:APIを通じて利用可能(ただしTier 5以上)

  • ChatGPT EnterpriseおよびEduユーザー:次週から利用可能

ただし、現時点では以下の利用制限があります:

  • o1-preview:週に30メッセージまで

  • o1-mini:週に50メッセージまで

  • WEB検索やファイルのアップロードなど、オプション的な機能はまだ利用できません

また、GitHub Copilotにも即日実装されるなど、開発者コミュニティでの導入が進んでいます。


6.まとめ

OpenAI o1モデルシリーズは、AIの能力を新たな次元に引き上げる画期的な技術です。その高い推論能力と問題解決能力は、科学、教育、ビジネスなど、様々な分野に革新をもたらす可能性を秘めています。

この性能向上によって、計算タスクを含むワークフローがより効率化されそうですし、複雑なロジックを自律的に構築する必要のあるエージェント系ツールにも大きな影響がありそうです。

一方で、このような高度なAIの登場は、私たちの社会や倫理観にも大きな影響を与える可能性があります。AIと人間の関係性、AIの判断の信頼性、プライバシーの問題など、考えるべき課題も多くあります。


7.AI-Bridge Labについて

AI-Bridge Labは、AIとそれを活用する人々の架け橋になるよう、最新のAI技術とその活用方法について情報を発信し、企業のDX実現をサポートしています。
AIを活用したソリューションや人材育成にご興味があれば、お気軽にご連絡ください!

ai_business@doerstokyo.jp


いいなと思ったら応援しよう!

AI-Bridge Lab
皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます!