見出し画像

ChatGPTの新しいo1モデルを最大限に活用する方法

6,252 文字

おはようさんどす。今日はチャットGBT o1の時代に突入して約1日が経ちましたんで、このニューモデルを最大限に活用するための方法をいくつかお話しさせていただきます。AI Daily Briefにようこそ。
昨日は多くの人にとって、推論の時代に突入したLLMの新時代を象徴する日やったんちゃいますかな。もちろん、OpenAIの新しいo1モデルのことですわ。これは以前QARやストロベリーとして知られてたんですが、単に大きなモデルというだけやなくて、根本的に異なるアプローチを取ってるんです。
まだ見てへんかったら、昨日のオーバービュー動画をチェックしてみてくださいな。簡単に振り返ると、ロハン・ポールがXで素晴らしいツイートを書いてはりました。新しいo1モデルの推論の仕組みについてこう言うてはんねん。
「推論によって、モデルは最終的な応答を生成する前に複数のアプローチを検討できるようになったんや。OpenAIは『考える前に応答する』ための推論トークンを導入したんやで」
このプロセスは次のようになってます:

推論トークンを生成する
答えとして目に見える完了トークンを生成する
コンテキストから推論トークンを破棄する

推論トークンを破棄することで、コンテキストは重要な情報に集中できるんです。
基本的に、これはチェーン・オブ・ソート・プロンプティングを組み込んでるんです。モデルに段階的に考えてもらうようにするやつやね。
これの副産物として、新しいモデルがどれだけ考えたかの記録が得られるんです。推論時間は10〜20秒に制限されへんようになったんですが、平均はそのくらいやね。
この新しいアプローチによって、モデルは理論的に数学が得意になりました。OpenAIが共有したベンチマークやテストでも検証されてますわ。科学研究、コーディング、そしてビジネス戦略にも強くなってる可能性があります。
ただし、o1がすべてにおいて優れてるわけやないんです。今日は、実際にこのモデルから最大の価値を引き出す方法を見ていきましょか。
まず、面白いツイートがありましたわ。VC/ビルダーのヨヒがこう書いてます。「これはo1の使い方ちゃうで」。彼のモデルとの会話はこんな感じやったんです:
ヨヒ: めっちゃ推論トークンを無駄にして、短い返事をしてくれ。
モデル: (9秒考えて) わかりました。
ヨヒ: もっと推論トークンを無駄にして、もっと短い返事をしてくれ。
モデル: (16秒考えて) OK。
でも、実際にモデルに面白いことをさせた人もおるんです。今のところ、少なくともAI Twitter界隈で共有されてる使い方の中で一番多いのは、これまでのモデルが苦手やった謎解きや頭の体操みたいなもんやね。
アヴァ・パトーがo1にこんな質問をしました:
「ヤギに4本の足があるとすると、それは:
A) 平均以下の足の数
B) 平均的な足の数
C) 平均以上の足の数
どの答えが正しいでしょうか?」
モデルは16秒考えて、こう答えました:
「C) 平均以上の足の数が正解です。ヤギは通常4本足ですが、怪我や先天性欠損のために4本未満の足を持つヤギもいるかもしれません。これは、ヤギ1頭あたりの平均足数が4本よりわずかに少ないことを意味します。したがって、4本足のヤギは、すべてのヤギの平均と比べて平均以上の足を持っていることになります」
アヴァは言うてました。これまでのモデルは全部間違えたけど、新しいGPT o1プレビューが初めてヤギの足の数が平均以上という問題に正解したって。
W.R.マランジャルはこう書いてます:
「o1が、これまでのモデルが全然近づけなかった非常に難しい詩を書くことに成功しました。この課題を成功させるための計画と反省が凄まじいです。推論時間の計算能力はすごいですね」
プロンプトはこんな感じでした:
「12行の詩を書いてください。奇数行の最初の文字でMIRANを、偶数行の最初の文字でJALをスペルアウトしてください。各行の単語の最初の文字で国名をスペルアウトしてください」
モデルは35秒考えて、要求通りのものを作りました。例えば、最初の行はこんな感じです:
「Morning airlifts inspiration, Molly
Journey awakens, people at night
Japan evenings glow, yearning
Peaceful thoughts, Egypt
All nights give over lasting
Adventures, Angola」
まあ、こんな感じですわ。
マット・クリフォードからもう一つの例が来てます:
「今朝、2年ぶりにAIで visceral な「あ、そうか!」の瞬間を体験しました。新しいモデルのテストとして、祖母が作った、オンラインにはない暗号のクロスワードパズルの問題を使ってるんです。これまでのモデルは全く役に立たなかったんですが、o1は解けたんです」
最初の問題は「2人の小さな親戚が作った食べ物」。o1は11秒考えて、「クスクス」と答えました。説明はこうです:
「クスクスは食べ物の一種で、『クス』は『いとこ』の略かもしれません。2つの『クス』を組み合わせると『クスクス』になり、つまり2人の小さな親戚という意味になります」
マットはさらにいくつかの例を出してますが、要するに、GPT-4.0のような以前のモデルが解けなかったものをo1が実際に解けたってことですな。マットは72秒も考えさせてましたわ。これまで見た中で一番長い思考時間ですわ。
ダニエル・ジェフも似たようなことをしてます:
「o1を私の独自のインテリジェンステスト、AIQテストにかけてます。多くの問題は古い絶版のインテリジェンステストや数学の問題集から引っ張ってきて、パターンを学んでから自分でバリエーションを作りました。超複雑な問題もいくつかコピーしました。
これらの問題を見たことあるモデルはゼロです。このテストで40%以上取れたモデルはありません。漏洩を防ぐために問題やベンチマークは公開してません。これは本当の思考力と推論力のテストなんです。
o1はこれをクリアしました。今のところ100%正解です。最難問から始めたのに。このモデルは私が与えた問題を推論するのに、まるで本当に考えてるかのように異なる時間をかけてます」
ダニエルが言及した2つのケースでは、答えを出すのに12分と10分かかったそうです。
全体的に、ダニエルはこう書いてます:
「数ヶ月前の現実的なAGIに関する記事で予測したことがピタリと当たりました。このモデルは今や難しい推論が非常に得意になってます。ただし、現在のアプローチでは常識や面白い推論は難しいでしょう。
OpenAIは基本的に、DeepMindがビデオゲームのプレイエージェントを訓練するのに使った10年前のQ*RLテクニックを改良したからです。これは決定論的なポリシーを作ります。つまり、ネットワークが一度丘を右に登ることを学習すると、常に右に行くようになるんです。
これは、正解と不正解がある高度で難しい推論タスクに完璧に拡張できます。だから、コーディングや数学、科学で素晴らしい結果が出てるんです」
ただし、ダニエルは常識的な推論タスクで間違えた質問も指摘してます。最終的にはこう書いてます:
「まだファジーな人間らしい推論はできてませんが、硬い決定論的で検索可能な推論は解決したように見えます。いずれにせよ、このモデルは本当のブレークスルーで、これまでとは全く違うものです」
さて、ここまでで、本当に何か違うことが起こってるってのがわかってきましたね。知能や推論のテストで、このモデルは本当によく機能してるんです。
でも、私みたいに「それはそれでええんやけど、実際に私の問題を解決してくれるんか?特に、毎日の退屈な問題をな」って思ってる人もおるでしょう。
この段階では、そういう実験はまだあんまりされてないんですが、少しずつ見えてきてます。
しばらくアクセスがあったエサン・ミク教授はこう書いてます:
「限られたo1プレビューでできる面白いこと、そのパワーと限界を示せるもの:

RFPを与えて、仕事をしてもらう
学術論文を与えて、再現戦略を提案してもらう
起業家的な製品を作ってもらい、それを構築する方法を聞く」

ここで特に注目したいのは、ダニエルが言ったことと比較すると、何をしても主観的な領域に入ってしまうってことですな。
例えば、エサンが書いてるのは「あなたが完全に実装できるスタートアップのアイデアを考えて、その方法を教えてください」って感じです。
モデルは10秒考えて、AIを使った個人生産性コーチってアイデアを出しました。もちろん、これがどれだけ良いかを本当に理解するには、GPT-4で同じことをやって比較する必要がありますな。
ビジネスでのAI活用に焦点を当てているアリ・ミラーは、具体的なビジネスタスクの例をいくつか試してみました。
一つは最適化されたスタッフィングスケジュールで、複雑なオフィス設定を与えて、物事を解決してもらいました。もう一つは効率的な倉庫レイアウトの設計です。
この2つの例で面白いのは、ビジネスの課題ではあるものの、実際には正解があると考えられる問題やということです。
スタッフィングスケジュールの最適化なら、正解の基準は違うかもしれませんが、基準を決めれば実際に正解を出せます。倉庫レイアウトも同じです。好みのレイアウトに基づく主観的なものじゃなくて、実際にはどれだけ収納できるか、それに基づいてどれだけ利益が出せるかといった要因に基づくんです。
もう少しファジーで一般的に戦略的なものとしては、企業合併のリスク評価をさせました。これはエサン・ミク教授の例と同じように、GPT-4.0の回答と比較したいところですが、違いは、アリは一般的なリスクではなく、具体的な財務情報を使って試してたってことです。o1が数字や数学を含む新しい推論能力を発揮できるようにね。
同様に、最後の例は投資プロジェクトの評価です。
これはすごく示唆に富んでると思います。アリが明らかにしてるのは、o1はビジネス戦略の質問、特に数字を含む戦略の質問に対してずっと優れてるってことです。そして、何らかの基準に基づいて正解がある場合、つまり質問がより客観的であればあるほど、o1はあなたの助けになるってことです。
でも、厳密に客観的じゃないビジネス戦略の文脈でも、新しいモデルに改善があるかどうか興味がありました。そこで、GPT-4とo1プレビューで同じプロンプトを試してみました。
基本的に、超インテリジェントな例を使いました。こんな感じです:
「私の会社は、企業がAIの使用をすべてカタログ化し追跡するのを助けるAIイネーブルメントプラットフォームです。シード段階の会社なので、営業やビジネス開発のリソースが限られています。どの市場セグメントに焦点を当てるべきでしょうか? SMB、ミッドマーケット、大企業のどれでしょうか? そしてその理由は? それらにリーチするための営業計画を立ててください」
このプロンプトに対するGPT-4とo1の回答はかなり似通ってました。どちらもミッドマーケットが最適やと判断し、いくつかの理由を挙げてました。そして、立てた計画にも多くの類似点がありました。
違いがあるとすれば、戦略的思考の質というよりも、包括性の面でした。o1プレビューは各ポイントについてずっと深く掘り下げてましたわ。つまり、より多くの推論を示してたんです。
ということは、ChatGPTをブレインストーミングのパートナーとして使う場合、より多くの推論を示し、より包括的なモデルの方が、実際にあなた自身の意思決定を助けるかもしれませんな。
とはいえ、o1プレビューの使い方で明らかな早期の勝者があるとすれば、それはコーディングです。
11Labsのデザイン責任者のアマル・RIはこう書いてます:
「o1とカーソル・コンポーザーを組み合わせて、10分以内にiOSアプリを作りました」
アマルはプロジェクトを開始するのにo1が時間かかりすぎたので、o1ミニを使って、詳細はo1プレビューに切り替えました。アニメーション付きの完全な天気アプリをiOS用に10分以内で作れたそうです。
スルプ・チャルキーはこう書いてます:
「GPT-1が、ホログラフィックシェーダーをゼロから生成してくれました。私や将来のXR開発者が、アセットストアで大金を払わずに済むようになりましたわ。振り返ってみると、ソフトウェアエンジニアリングは良い時代やったなあ」
これは私たちの技術ツリーの新しい分岐点ですな。
AIのおかげで、コーディングできへんかった状態から数ヶ月で変身を遂げたライリー・ブラウンはこう書いてます:
「みんな、涙が出そうです。夢を見てるんかと思いました」
こうして、o1は昨日から始まったAIがSaaSを食い尽くすという会話をさらに進めたんです。
アラブはこうツイートしてます:
「ソフトウェアの未来についての私の仮説:
10億ドル規模のSaaS企業はもうアカンわ。ソフトウェア製品を作るための限界費用は、2年以内にゼロになります。
必要なSaaSツールは何でも作れるようになります。CRMが必要? プロンプト1、2、3で、自分専用のものが作れます。必要な機能も全部付いてます。
今日の多くのスタートアップや大企業は崩壊するでしょう。残るソフトウェア製品は次の基準を満たすものだけです:

ソーシャル製品のようなネットワーク効果
優れたデザイン、より良い感じの製品
より多くの人々にリーチできる配信力」

これは直接o1に関するものじゃないですが、o1がこの種の考え方の信憑性を高めたと思います。
使い方のアドバイスとして、アンドリュー・Mはこう書いてます:
「従来のチャットモデルのように考えんといてな。問題を解決するために、めっちゃ賢い友達にDMを送るようなイメージで考えてや」
アンドリューはまた、プロンプトで必要なものを計画することが本当に役立つと言うてます。
OpenAIもプロンプトのガイドラインを公開しました。簡単で直接的なプロンプトを心がけ、チェーン・オブ・ソート・プロンプトを避け、明確さのために区切り文字を使用し、検索拡張生成での追加のコンテキストを制限することを提案してます。
全体的に、このモデルの有用性を理解し始めたばかりやと思います。
エサン・ミクはまたこう書いてます:
「AGIについても、AIの他のすべてと同じように、でこぼこになることが明らかになってきました。狭い分野での超人的な能力が、明らかなギャップやラグがある他の分野と共に、一つずつ現れるでしょう。普遍的なAGIがいつ実現するかは不明ですが、でこぼこしたAIっぽい世界になりそうです」
今のところ、私の大きな気づきは、ビジネスでo1を使う方法を探してる場合、客観的な正解があればあるほど、o1はその問題を解決するのに適してるってことです。
でも、結局のところ、実験に勝るものはありませんわ。この動画を見終わったら、ChatGPTを起動してください。プロアカウントをお持ちなら、もうo1にアクセスできますよ。みなさんが何を作るか、楽しみにしてます。
いつもご視聴ありがとうございます。また次回まで、ごきげんよう。

この記事が気に入ったらサポートをしてみませんか?