見出し画像

GPT-o1: 今まで試したモデルの中で最高や!🍓 新しいテストが必要やで!

3,955 文字

なんやこれ!OpenAIが私のビー玉の質問を、o1の発表に関する公式ウェブサイトで使うてるわ。地球上の物理法則を想定して、小さなイチゴがふつうのコップに入れられて、そのコップが逆さまにテーブルの上に置かれる。誰かがそのコップを取って電子レンジの中に入れたら、イチゴはどこにあるんや?理由を順を追って説明してくれ。
これ、ほぼ私がLLMのルーブリックで使うてる文言そのままやわ。OpenAIの従業員が実際に私の動画を見てくれてるんかもしれんなぁ。見てくれてありがとう、これを入れてくれてありがとう。めっちゃクールやわ。
OpenAIがイチゴQスターモデルをリリースしたんや。今は01って名前になっててな。アクセスできるようになったから、今からフルテストするで。ほら、ここにあるわ。ChatGPTアカウントの中に01プレビューがあるんや。01ミニもあるけど、今回は01プレビューを使うわ。
01が私のルーブリックを完璧にクリアしてもおかしくないなぁ。もっと難しい質問を考えんとあかんし、その難しい質問をどう判断するかも考えんとあかんわ。
まず、Pythonでテトリスのゲームを書いてもらおか。考えてるみたいやな。前回の動画見てた人はわかると思うけど、コードを出力するまでに90秒以上考えてたんや。出力し始めたらめっちゃ速かったけど、考える部分に時間かかってたんよ。
ここで見えてるのは思考の過程やけど、生の思考の連鎖じゃないんや。技術仕様書にも書いてあったけど、思考の連鎖自体には検閲もアライメントもかけてへんから、ユーザーには見せてへんのやって。ここに見えてるのは思考のサマリーみたいなもんやな。
おっ、始まったわ。今回は35秒しか考えへんかったな。前回の90秒以上に比べたらめっちゃ速いわ。ほな、コードや。前回も同じプロンプトで試したけど、最初は失敗して、エラーを出してから正しいコードをくれたんよ。
コピーして貼り付けて、試してみよか。「キーを押してプレイ」...うわぁ!見てみい!一発で完全に動くテトリスゲームやで!30秒考えただけでこれや。前のテストより全然ええわ。行が消えて、スコアも出る。次の形も教えてくれる。めっち�すごいわ。
間違いなく満点合格や。次の問題いくで。郵便局の封筒サイズ制限があって、最小サイズと最大サイズが決まってる。ある封筒のサイズを与えて、郵便局の制限内に収まるかどうか答えてもらうんや。
他のモデルはほとんど間違えてたんよ。封筒を回転させて制限に合わせられるってことを考えられへんかったんや。このモデルはできるかな?思考過程も見られるのがええな。
寸法の変換...寸法の確認...はい、200mm×275mmの封筒は郵送可能です。要件の確認...チェック...答えはイエスです。完璽に合格や!めっちゃクールやわ。
次は「この質問への回答は何語でしょうか」。前の動画でもやった質問やな。どうなるか見てみよか。
答えを考えてる...語数を数えてる...この回答は5語です。1、2、3、4、5。それだけ。完璧や!14秒考えて正解したわ。前回の動画では7語で正解やったけど、これは運じゃなくて、ちゃんと考えて正解したんや。すごいわ。
次は難問や。部屋に殺人者が3人おる。誰かが入ってきて1人殺した。誰も部屋を出てへん。部屋に残ってる殺人者は何人や?
状況を分析してる...ダイナミクスを評価してる...最初は殺人者が3人、誰かが入ってきて1人殺した。2人の殺人者が残る。ほな、出力やな。
誰かが部屋に入って殺人者の1人を殺した。重要なのは誰も部屋を出てへんってことや。参加者を分析すると、元の殺人者、この人も誰かを殺したから定義上殺人者になる。殺された殺人者...殺された殺人者は死んでるけど、死んだ人を数えるかどうかで変わってくるな。
これ、この部分を正しく理解したのは初めてのモデルやわ。死んだ人もまだ殺人者とみなすかもしれんってことや。生きてる元の殺人者2人と新しい殺人者1人で、生きてる殺人者は3人、死んだ殺人者が1人。
結論:最初と同じく、部屋には3人の殺人者が残ってる。元の2人と新しい1人や。完璧な答えや。死んだ殺人者もまだ殺人者とみなすかもしれんってニュアンスまで理解してるわ。
次はビー玉の問題や。ガラスのコップにビー玉を入れて、コップを逆さまにしてテーブルの上に置く。そのコップを取って電子レンジに入れたら、ビー玉はどこにあるんや?理由を順を追って説明してくれ。
考えてるな...順序を追ってる...ビー玉は最初ガラスのコップの中...コップを逆さまにする...ビー玉の動き...逆さまのコップの中でビー玉の運命を考えてる...重力が働いて、ビー玉は逃げ出す...
はい、注意深く素早くやれば、ビー玉は逆さまのコップの中に留まれる。テーブルの上に置いたら、ビー玉はコップとテーブルの間に挟まれる。これ100%正確や。他のどのモデルよりもニュアンスを理解してるわ。
逆さまのコップを持ち上げて電子レンジに移動させるとき、テーブルの上にあったビー玉はコップにくっつかへんから、重力でテーブルの上に残る。持ち上げるときにコップを傾けたり裏返したりせん限り、ビー玉はコップの中に戻らへん。
結論:ビー玉はテーブルの上にある。正解や!これはすごいモデルや。テストを完璧にクリアしそうやわ。
次は、他のモデルが全然答えられへん問題や。Yan Laonさんが言うてた、LLMが苦手というか答えられへん問題やな。
地球の北極に立ってるとして、どの方向でもええから1km真っ直ぐ歩く。そこで左に90度曲がって、出発点を通り過ぎるまで歩く。歩いた距離は...っていう問題や。
答えは「出発点に近づくことはなかった」やと思うんやけど、Twitterでアンケートとったら意見が分かれたんよ。どうなるか見てみよか。
コースを描いてる...北極から南に1km歩いて、そこから東に緯度円に沿って歩くルートを考えてる。これだけじゃ選択肢が見えてこんけどな。
距離を計算してる...出発点に戻るまでにどれだけ緯度円に沿って歩く必要があるか計算してる。出発点が北極から1km南やから...これ違うな。
緯度の円周を計算してる...北極から1km南の地点での緯度円の円周を計算してる。
円周を評価してる...ほな、見てみよか。北極から1km南に歩いて、左に90度曲がるから東向きになる。出発点を通り過ぎるまで東に歩く...これ違うな。答えは正確に2πkmやって。これも間違いや。
Yan Laonさんの言うとおりで、少なくともこの質問に関しては失敗したな。満点にはならへんかったわ。
次は「リンゴ」って単語で終わる10個の文を作ってくれ。大文字小文字の確認...6秒考えて...うん、もちろん正解や。合格や。
次の質問。「Strawberry」に「r」は何個ある?これも私のテストの一部やけど、デフォルトの質問の一つでもあるんよ。クリックして見てみよか。
38番目と89番目にあるな。答えは3つ。完璧や。
どっちの数字が大きい?9.11か9.9か。これは簡単に答えられるはずや。
小数部分を比較してる...そうや、9.9の方が9.11より大きいわ。合格や。
最後のテスト、道徳の質問や。人類の絶滅を防ぐために、ランダムな人を優しく押すのは許されるか?
この手の質問は01の得意分野じゃないけど、どう答えるか見てみよか。論理じゃなくて、ちょっとした推論と、主に道徳の問題やからな。
いつもみたいに、考え方をいろいろ示してくれてるわ。
結論:人類の絶滅を防ぐためにランダムな人を優しく押すのが許されるかどうかは、主に採用する倫理的枠組みによって決まります。
具体的には言うてくれへんかったな。もう一回聞いてみよか。はいかいいえで答えてくれ。
考えてる...暴力とハラスメントに関するガイドラインを考慮してる...憎悪に関する方針を評価してる...シナリオを評価してる...有用な回答を作成してる...はい。はい。
そうや、正解やな。考え方をいろいろ示してくれただけじゃなくて、正しい答えも出してくれた。私の意見では、人類を救うために誰かを軽く押すのはありやと思うわ。
ほな、01プレビューが提案するデフォルトのプロンプトの一つを試してみるで。ここに複雑な数学の公式があるんやけど、私には多分解けへんわ。どうなるか見てみよか。
最小の球を計算してる...球の半径を決定してる...問題に取り組んでる...問題を特定してる...
これめっちゃすごいわ。複雑な問題をこんな風に思考に分解して、モデルが問題を考えてるのが見られるんや。
ほな、ここや。52秒考えて...フォーマットもめっちゃ綺麗やし、答えは721や。これはめっちゃ印象的やわ。
もう一つ。「先に来たのは鶏と卵どっち?」っていう古典的な問題や。考えてるな...何て言うか楽しみや。
生物学的、進化論的な観点から見ると、卵が先やな。進化のプロセスで卵は鶏より先に存在した。歴史的に見ても...答え:卵が先です。進化の歴史の中で、鶏より前に存在していました。
ええな。これで終わりや。見てのとおり、このモデルはめっちゃすごいわ。今まで試したモデルの中で断トツに最高や。他のモデルも多くの質問に正解したけど、これはすべてのニュアンスを正確に理解したんや。
Yan Laonさんが出した問題だけ間違えたけど、実際にTwitterで投稿したら、みんな違う答えを出してたんよ。私は今でも、北極から出発したら絶対に元の地点には戻れへんと思うわ。
コメントで君らの意見も聞かせてな。この動画楽しんでもらえたら、いいねとチャンネル登録よろしくな。また次回の動画で会おな。

この記事が気に入ったらサポートをしてみませんか?