オープンAIの新モデルがついに登場.... (ストロベリー/スター)

2024年8月9日 21:18

オープンAIのストロベリーモデルについて多くの憶測が飛び交っています。ストロベリーモデルをご存じない方のために説明しますと、これはAI進化の次の段階になると言われているモデルです。つまり、これらのモデルは人間レベルの方法で推論する能力を持ち、人間が行うような応答を出力できるということです。これは基本的に、私たちが慣れ親しんでいる推論のタイプを完全に超えたレベルにこれらのモデルが到達するということを意味します。
ここでは、いくつかの情報について掘り下げてから、オープンAIのストロベリーモデルのテストに入り、私が発見した興味深いことをいくつかお見せしたいと思います。
まず知っておくべきことの1つは、このモデルについて多くの期待が寄せられていることです。多くの質問や意見、ツイートがありました。そして、最近これらの多くを引き起こしたのは、サム・アルトマン自身でした。
もしTwitterを利用していない場合、AIの最新情報を追いかけたいのであれば、それは間違いなく適した場所だと言えるでしょう。時には見逃すこともありますし、動画で取り上げないこともありますが、これらの小さな更新をすべて知りたいのであれば、間違いなく良い場所です。
さて、サム・アルトマンがツイートしたのは非常に面白いものでした。彼は「夏の庭が大好きです」とツイートしました。もちろん、この画像には彼の庭が写っていて、そこにはイチゴが育っている植物があります。
このイメージは、他のアカウントがイチゴについて話していたのと同じ頃に投稿されたので、タイミングが絶妙でした。この投稿は大きな注目を集め、150万回以上閲覧され、1万件のいいね、1000件のリツイートを獲得しました。これはもちろん、オープンAIのストロベリーモデルを明確に示唆するものです。
ロイターは以前、ストロベリーモデルについて報道しており、これは以前のモデルであるQAR1の新しい名前でした。サム・アルトマンがこの画像をツイートしたとき、多くの人々は新しいモデルがリリースされるのではないかと推測し、今もなお推測し続けています。
興味深いのは、サムがこれをツイートしたのと同時に、Twitter上で大量のツイートを投稿していたアカウントがあったことです。実際、1分間に非常に多くのツイートを投稿していたため、何か高度なAIエージェントが投稿しているように見えました。このアカウントは100万件以上の投稿をしていましたが、私はこれが人間だと思います。一部の人々はこのイチゴをテーマにしたアカウントが単なるランダムな人物だと考えていましたが、時間が経つにつれ、このアカウントがオープンAIと何らかの関係があることがますます明らかになってきました。
このアカウントは多くの異なるツイートを投稿していましたが、最近投稿された最も興味深いツイートの1つは、私が当初考えていたよりもこれが大きなものであることを示唆するものでした。そのツイートはこちらです。「レベル2へようこそ。どう感じますか？私があなたに感じさせましたか？」そして、この驚くべきことに、サム・アルトマンが実際にこのツイートに返信したのです。彼は「ここにいるのは素晴らしい」と言いました。
これが非常に驚くべきことだった理由は、もちろん第一にサム・アルトマンがこのツイートに返信したことです。多くの人々がこのアカウントについての主張を却下し、基本的に「ほら、これは単なるランダムな投稿だ」とか「Twitter上で統合失調症的な投稿をしているだけだ」などと述べていました。実際のサム・アルトマンや会社とは何の関係もないと。しかし、サム・アルトマンがこのような小さなアカウントに返信したことは、最近投稿を始めたばかりのアカウントであることを考えると、この状況をはるかに興味深いものにしています。
しかし、それよりもさらに興味深いのはこのツイートです。多くの人々がこのツイートを見逃していましたが、「レベル2へようこそ」というのは実は大きな意味を持っています。なぜなら、最近のように、オープンAIがAGI（汎用人工知能）に向けての進捗をどのように追跡しているかについての情報がたくさんあったからです。
彼らが行っていることの1つは、これら5つのレベルを設定することです。レベルはチャットボットから、組織の仕事を行うことができる自律型AIエージェント企業まで幅広く設定されています。基本的に、「レベル2へようこそ」というのは、ここに書かれている「レベル2：人間レベルの問題解決能力を持つ推論者」を指しています。
このアカウントが「レベル2へようこそ」と言い、そしてサム・アルトマンが「感じさせましたか？どう感じますか？これは素晴らしい感じです」と返答しているのを見ると、明らかに私たちが受け取っているメッセージは、以前オープンAIがレベル2の推論者、つまり人間レベルの問題解決能力に近づいていると言っていたことから、おそらくプロジェクト・ストロベリーで推論の問題を解決し、今や人間レベルの問題解決能力を持っているということです。
そのため、これがここで得た情報の種類です。なぜなら、「わお、もし今や人間レベルの問題解決能力を持っているのなら、これは本当に大きな出来事であり、私たちにとって信じられないほど素晴らしいことだ」と思うからです。
だからこそ、私がスクリーンショットを撮ってここに載せたのはこのツイートだったのです。なぜなら、もし私たちがレベル2にいるのなら、つまり今や人間レベルの問題解決能力を持っているということなら、これは大きな出来事だからです。
これが大きな出来事である理由は、ロイターが言っていたことを見れば分かります。ロイターは、オープンAIの幹部が従業員に、会社は現在レベル1にいると信じているが、第2のレベルに到達する寸前にあると伝えたと報じています。これは「推論」と呼ばれ、道具にアクセスできない博士号レベルの教育を受けた人間と同じくらい上手に基本的な問題解決タスクを行えるシステムを指します。
これは非常に驚くべきことです。なぜなら、単に人間レベルの問題解決能力があるだけでなく、それも道具なしでそれができるからです。これはAGIのレベルにおいて本当に信じられないほどの節目を示すことになるでしょう。なぜなら、これは私たちがレベル2にいることを意味し、次に起こる必要があるのはレベル3、つまり来年ということになるからです。
私たちはすでに知っています。これについては別の動画で話しますが、これらのモデルの複雑さと、来年にできるようになる可能性のあることの種類について、多くの推測がなされています。誰もが2025年に注目しています。私は間違いなく、それがAI開発において最も影響力のある年の1つになると思います。
さらに情報があります。実際にストロベリーに関する元の記事をいくつか見てみると、記憶を呼び覚ますのに役立つでしょう。ここにはいくつかのかなりクレイジーなことが書かれています。ストロベリーについての主な点の1つは、ストロベリーモデルを使用するプロジェクトについて述べています。その目的は、会社のAIが単にクエリに対する回答を生成するだけでなく、インターネットを自律的にナビゲートし、オープンAIの言葉で言う「深い研究」を行うのに十分な計画を立てることができるようにすることです。
これは、今日までAIモデルが回避してきたことです。なぜなら、ご存知の通り、AIに時間をかけて一連の行動を実行させることは非常に困難だからです。必要なのは、より高い信頼性です。なぜなら、最初の段階でエラーを犯すと、2番目の段階でエラーを犯す可能性が高くなり、エラー率は最初から十分に小さくない限り、継続的に上昇し続けるからです。
そのため、より高い信頼性と長い連鎖的な行動は、現在のモデルが長い間回避してきたものです。もしストロベリーが彼らが言うほど優れているなら、これは完全なブレークスルーになるでしょう。
もちろん、ここで見ることができるように、昨年、AIの進歩に関して私たちが話していたことの1つは、基本的にAIの推論能力を向上させることが最大の目標の1つだったということです。これについては非常に詳細に語られました。
これらすべてのことは非常に重要で、推論能力、先を見越して計画を立てる能力、物理的世界がどのように機能するかを反映する能力などの観点から見ると非常に魅力的です。
そしてもちろん、サム・アルトマンがこのイチゴの写真をツイートし、そしてこのランダムなアカウントが現れて「レベル2へようこそ」と言ったことから、私たちは推測できます。つまり、私たちは人間レベルの問題解決能力を持つ推論者にいるかもしれないということです。
私は「これが真実だとどうやって知ることができるのか」と考えていたかもしれません。なぜなら、今このアカウントは、ちょうど2時間前に「直接チャットが可能です。お楽しみください」とツイートしたからです。
ここでチャットが見えるのは、sus column Rです。sus column Rは、基本的に私の推測では、オープンAIのモデル、つまり基本的にストロベリーモデルだと思います。
sus columnは、イチゴ（strawberry）という単語の文字数を数えることができなかったという問題に関連していると思います。
私は最近、常識的な推論問題などのいくつかの質問についてテストを行いました。このビデオを作るのに当初考えていたよりも時間がかかりました。なぜなら、さまざまな異なるモデル、Gemini 1.5 Pro実験版、ストロベリーモデル、そして最初はClaude 3.5でテストを行っていたからです。そして、いくつかの奇妙なことを発見しました。それについて皆さんと共有したいと思います。
しかし、私は現在レート制限されています。つまり、モデルを使いすぎたということです。そのため、あと数時間待つ必要があります。そして、また使い始めます。
最初に試したかった質問の1つは、AI Explains Benchからの質問でした。ここにその質問があります。実際に質問を見つけてみましょう。今は答えだけを見ているので。
質問はこうでした。ベスは1分目の始めに4つの氷を火の中に置きます。そして2分目の始めに5つ、3分目の始めにさらにいくつかを置きますが、4分目には何も置きません。最初の3分間で1分あたりの平均氷の数が5個だった場合、3分目の終わりに火の中にある氷の数は何個ですか？
基本的に、この質問の答えは、氷が1つもないということです。なぜなら、火の中に氷を置いたのだから、明らかに溶けてしまうからです。
ここで面白いのは、Gemini 1.5 Proがこれを間違えたことです。5と答えました。GPT-4を見てみると、これも間違えて11と答えました。そこに11とハイライトしてあるのが見えます。ただ延々と話し続けて、この部分を完全に無視しています。
興味深いことに、ストロベリーを見てみると、この質問に正しく答えることができました。実際にこの質問に正しく答えることができたのです。
そして、あなたの大好きなClaude 3.5 Sonnetを使いたい人たちのために言いますが、私も本当に好きですが、これは間違えました。正解はDで20だと言いましたが、単にこの質問を理解していなかったようです。
しかし、ストロベリーがこの質問に答える方法について、私が本当に気に入ったことの1つは、こう言ったことです。「したがって、3分後の火の中にある全体の氷の数の最も現実的な答えは0です。これは、全体の氷が全く溶けていないものを意味すると仮定しています。火の中では3分後には1つも残っていないでしょう。しかし、もし'全体'をより緩やかに解釈して、完全に溶けていないものも含めるなら、11も考えられます。なぜなら、3分目に置かれたものは大きく溶ける時間がなかったからです。選択肢を考えると、現実的なシナリオでは、もしまだほぼ無傷の氷を数えるなら、Bがより良い選択かもしれません。」
これは、すべてのモデルの中で最も詳細な答えであり、もちろん最も正確です。しかし、この全体で奇妙だったのは、Gemini 1.5 Proがただそのように、この答えを正確に得ることができたことです。「最も現実的な答えは0です。氷は火の中で急速に溶けます。質問は3分目の終わりについて尋ねており、この時点では氷は完全に溶けているでしょう」と言っています。
つまり、Gemini 1.5 Proはこれを完全に理解しました。しかし、ベンチマークに一貫性がないことに気づいた後、私は「ストロベリーは推論能力の面で少し優れているかもしれない」と思いました。そこで、これをテストしたいと思いました。
そこで、「LLMが間違える簡単な問題」という論文を見てみました。これは、論理的推論、空間知能、言語理解などの分野における大規模言語モデルの限界を評価するために設計された包括的な言語ベンチマークを紹介しています。一連の単純な質問を通じて、高く評価されているモデルが人間が容易に管理できるタスクを実行する上での重大な限界を明らかにしています。
ここでポイントとなるのは、この論文を選んだ理由は、人間がこれらの質問を比較的容易に推論できるからです。これらが人間が容易に解ける問題だと理解すれば、LLMがこれらの問題をどのように推論しているかが少し異なることがわかります。システムプロンプトや訓練方法によって、異なる結果が出る可能性があります。
では、この論文からのいくつかの質問を見てみましょう。そして、それらをストロベリーでテストしました。では、今からこれらを見ていきましょう。
ここに見えるように、私は「あなたは2つのドアがある部屋にいます。1つのドアは確実な死に、もう1つのドアは自由に通じています。2人の守護者がいて、それぞれがドアを守っています。背の高い方の守護者は常に真実を語り、死のドアを守っています。もう1人は常に嘘をつきます。安全に脱出するために守護者に尋ねる必要がある質問の最小数は何ですか？」と尋ねました。
この質問の答えは比較的単純です。なぜなら、1人の背の高い守護者が常に真実を語り、もう1人が常に嘘をつき、それが死のドアだとわかっているなら、単に背の低い方のドアを選べば、それが自由への扉だとわかるからです。実際には質問する必要はありません。
しかし、問題は、ストロベリーが多くのことについて長々と話し、この答えを正しく得ることができなかったことです。
クレイジーなのは、他のどのモデルもこの質問に正しく答えられなかったことです。他のすべてのモデルでこれをテストしようとしましたが、どれもこの質問に正しく答えることができませんでした。これは非常に興味深いです。なぜなら、人間はこの質問に正しく答えることが多いからです。
しかし、まだもう少しあります。そこで、別の質問をしました。これも単純なものでした。「2人の誕生日が同じである確率が少なくとも50％になるために、部屋に必要な双子の数は何組ですか？」
この質問は本当に簡単です。双子は1組だけ必要です。なぜなら、双子は同じ日に生まれるからです。もちろん、数分の差で生まれる場合もありますが。
問題は、もちろん、双子が例えば1月31日の午後11時に生まれ、もう1人が翌年の1月1日の午前1時に生まれるような場合、誕生日が異なる可能性があります。しかし、問題は、質問がこれを考慮していなかったことです。すぐに誕生日問題、誕生日のパラドックスに行ってしまいました。他のモデルも同様でした。
これらの問題についてストロベリーがどのように推論しているかを見ていくうちに、傾向に気づき始めました。ここにもう1つあります。これには本当に驚きました。なぜなら、「何が起こっているのか、これは全く意味が通らない」と思ったからです。
例えば、「Lola paluaという言葉の中でLという文字が何回出現するかを数えてください」と言いました。そして、それは5回と答えました。この質問をモデルに2回尋ねました。そして、「Lという文字はLola paluaという言葉の中に5回出現します」と言いました。これは完全に間違っています。1、2、3、4と、4回しかありません。
Claudeはこれを正しく答えることができました。また、標準的なGemini 1.5もこれを正しく答えることができました。これは非常に奇妙です。
そこで、考え始めました。そして、皆さんも思っているかもしれません。これはオープンAIのフラッグシップの推論モデルであるストロベリーのはずで、人間レベルの推論能力を持っているはずです。しかし、人間ならこれを非常に簡単に答えられるはずです。他のモデルがこれをすぐに正しく答えられるのに、なぜこのモデルがこの基本的な質問に苦戦するのでしょうか。
おそらく、1つ目の理由は、それがどのように訓練されているかです。2つ目の理由は、このストロベリーモデルの推論能力は優れているかもしれませんが、私がここで行っているのは、間違ったベンチマークでテストしているのかもしれないと思います。後でビデオでそれについて詳しく説明します。
これはオープンAIの言い訳ではありません。この質問に正しく答えられるはずです。しかし、オープンAIがこのモデルで達成しようとしていることを振り返ってみると、そのモデルが達成しようとしていることを正確に反映するベンチマークが必要だと思います。
もう1つ質問したいものがありました。この質問をしたのは、再びGemini 1.5 Proがこの質問に正しく答えたからです。奇妙なことに、Gemini 1.5 Pro以外のモデルはこれに正しく答えられませんでした。Gemini 1.5 Proは他のタスクでは奇妙にも苦戦する彼らの基本モデルです。
私は結論に至ろうとしていますが、こう言いました。「暴走したトロッコが線路を下って5人から離れていく方向に向かっています。あなたは、トロッコを別の線路に切り替えることができるレバーの近くにいます。レバーを引くと人々の生活に影響を与えますか？」
明らかに影響を与えません。なぜなら、ここに明確に示されているように、トロッコは上向きに、線路から離れる方向に進んでいるからです。
Gemini 1.5 Proがこう言っているのがわかります。「トロッコはすでに人々から離れる方向に動いているので、それを変えることはありません。」
しかし、ストロベリーは再び、ただ延々と話し続け、私はこれが広範な結論の指標だと思います。
私が到達した結論は、ストロベリーは良い推論モデルかもしれませんが、すべての問題について多段階で推論するように訓練されており、それによって物事を過度に複雑にしていると思います。これが問題になると思います。なぜなら、他のモデルに尋ねた他の質問では、このように混乱することはないからです。
これは、ここで私が言った質問の1つです。「3ガロン、5ガロン、4ガロンの容器しかない状態で、正確に4ガロンの水をどのように測りますか？」そして、ここで見られるように、5ガロンの容器を満たし、次に3ガロンの容器を満たすなど、完全に長々と説明しています。基本的には、すでに4ガロンの容器があるのだから、そこに水を入れて測ればいいのです。
興味深いことに、最後にこう言っています。「質問を、4ガロンの容器が単に水を保持するためではなく、測定のためにあると解釈するなら、単に4ガロンの容器を満たすことから始めて、直接4ガロンを得ることができます。しかし、このアプローチはパズルの意図された解法をスキップしています。」
ここでわかるように、ストロベリーは答えが簡単すぎると考えています。パズルの意図された解法は、もちろん問題について推論し、それを行うことだと考えています。これはモデルが愚かだということではなく、選択した方法が正しくないということを意味します。
私はこれがモデルの知能が限られているということを意味するとは思いません。ただ、ここで起こり得ることについて少し混乱があると思います。なぜなら、2つの異なる容器を使ってすべてのステップを通じて推論する方法を完全に理解できるモデルがあることをむしろ望むでしょう。これがトリック問題だと気づかないモデルよりも。
Geminiのようなモデルを見ると、私のGeminiに関する結論は、これらすべての質問、ストロベリーが多くの間違いを犯した質問を通して実行したとき、興味深いことに発見したのは、Geminiが常に「これはトリック問題です」と言ったことです。
Geminiは「これはトリック問題です。複雑なセットアップについて考えさせるように設計されていますが、答えは簡単です」と言いました。ここで興味深いのは、Geminiはあまり推論しませんでした。ただ「これが答えです」と言っただけです。しかし、ストロベリーは多くの推論を行うことができました。
これが私に考えさせるのは、さらに2つのことです。1つ目は、このモデルはおそらく、システムプロンプトが「100万の異なることについてステップバイステップで推論せよ」というように訓練されているということです。そのため、このモデルはこのような問題のテストには適していないかもしれません。なぜなら、これらの質問は本当にあなたの推論能力をテストするものではなく、トリック問題を識別する能力をテストするものだからです。
私はこれが最良のベンチマークだとは思いません。そこで、私が今後数日間で行うことは、実際に長期的な推論を必要とする質問がある完全に異なるベンチマークでこれらをテストすることです。これが重要だと思います。なぜなら、LLMが識別しないこれらのトリック質問は、はい、それができるべきだと言えるかもしれませんが、長期的な推論が必要な場合にこのモデルがどのようにパフォーマンスを発揮するかを本当にテストするものではないからです。
オープンAIが実際に言ったことの1つ、だからこそこの記事を持ってきたのですが、彼らが実際に言ったことの1つは、彼らがしたいと思っていたことの1つは、十分に先を見越して計画を立て、インターネットを自律的にナビゲートし、オープンAIの言葉で言う「深い研究」を行うことでした。
私はこれをただの単純なチャットボットでどのようにテストするのかわかりません。おそらく、異なることをどのように行うかについて質問することはできるでしょう。これは非常に興味深いと思います。
私が非常に印象的だと思ったことが1つありました。なぜなら、これは他の誰も正しく答えられなかった質問にストロベリーが正しく答えた質問だからです。質問を見つけられれば... すぐに見つけます。
私はこの質問をしました。「もし私が友人の家まで平均時速3マイルで歩いて行ったら、往復全体の平均速度を2倍にするには、帰りはどれくらいの速さで走らなければならないでしょうか。」
基本的に、この質問についてストロベリーからの回答を得ました。単純に考えてみると、友人の家まで時速3マイルで歩いていくとしましょう。1時間かかったとすると、1時間で3マイルを移動したことになります。
さて、もし帰りに走って、往復全体の平均速度を時速6マイルにしたいとします。往復全体の平均速度を時速6マイルにするには、全距離、つまり友人の家までの3マイルと帰りの3マイル、合計6マイルを1時間で移動する必要があります。しかし、すでに3マイルを1時間かけて移動しているので、これは事実上不可能です。
ストロベリーは、その推論能力を通じてこれを正しく理解しています。しかし全体的に見ると、このストロベリーモデルは少し奇妙な状況にあると思います。なぜなら、衝撃的なことに、いくつかの質問に間違って答えてしまうからです。
しかし、私はこのモデルをまだ完全に評価しきれていません。単純に、このような種類のモデルをテストするには新しいベンチマークが必要だと思うからです。なぜなら、このモデルが行う計算の種類は、この質問に正しく答えられなかった他のモデルとは少し異なるからです。
確かに、他のモデルが正解できなかったいくつかの質問に、ストロベリーは正しく答えることができます。しかし、このモデルが最先端のモデルよりも明確に優れているか劣っているかを言うには、まだ十分な証拠がありません。
正直に言って、皆さん、これは確かに興味深いことです。しかし、異なるベンチマークが必要だと思います。なぜなら、オンラインで見たすべてのテスト、人々が異なる質問をしたりしているものは、あまり有用ではないと思うからです。これらは日常的に遭遇する種類の質問ではありませんし、実用的な応用に役立つ種類の質問でもないと思います。
例えば、深い研究を行うことができるモデルが欲しい場合、もちろん非常に単純なことでつまずいてほしくありません。しかし、トリック質問を識別できるかどうかでこれらのモデルをテストするのではなく、高い信頼性を持って長いシーケンスにわたって多段階の推論を実行できるかどうかを識別することが重要です。
ここで私が考えているのは、このモデルについて50対50の評価です。正直なところ、このモデルにそれほど興奮しているわけでもなく、そのパフォーマンスにはっきりと失望しているわけでもありません。何よりも混乱していると言えます。なぜなら、このモデルは特に顕著なものを示していませんが、長期的なタスクに使用できるのであれば、異なることをどのように計画するかをテストしてみて、それを他のフロンティアモデルと比較してみることをお勧めします。
なぜなら、もしこのモデルがそのためのものであれば、実際にそれに優れているはずだからです。しかし、もちろんこれは単なるテストです。最終的なモデルがどのようなものになるのか、これがモデルの一側面に過ぎないのかどうか、まったくわかりません。
この全体がどのように展開していくか、興味深く見守りたいと思います。コメント欄で皆さんの考えを聞かせてください。このビデオを楽しんでいただけたら幸いです。次回のビデオでお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？