この動画では、OpenAIがGPT-5のフルトレーニングを開始した可能性と、その進展について詳述されています。共同創設者グレッグ・ブロックマンと研究者ジェイソン・ウェイのツイートが証拠として引用され、GPT-5のトレーニングは数ヶ月かかると予想されています。GPT-5は、GPT-4よりも約10倍のパラメータ数を持ち、より高度なパターン認識、コーディング、数学、STEM分野でのパフォーマンス向上が期待されています。
公開日:2024年1月27日
※動画を再生してから読むのがオススメです。
恐らく昨日はOpenAIがGPT-5の完全なトレーニングランを開始した日だったようです。
私は可能な限り信頼性の高い情報を提供するために、OpenAIからの可能な限りの公開コメント、ハードウェアCEOとの独占インタビュー、そして私自身の分析を含む、見つけられるすべての情報源を調査しました。
さらに、GPTを開くたびに実用的なヒントを投入し、私自身が本当に楽しんでいるボーナスの早期発見も加えます。
しかし、まずはこれらの2つのツイートから始めましょう。
GPT-5の全スケールトレーニングが行われているという最初の手がかりは、OpenAIの社長兼共同創設者であるグレッグ・ブロックマンから来ています。
まず、少し文脈を説明します。OpenAIは通常、完全なトレーニングランの前に、約1000分の1のサイズの小さなモデルをトレーニングします。
それらの小さなモデルから洞察を得た後、彼らは完全なトレーニングランを行います。
つまり、それがOpenAIの背景です。
Brockmanの言葉によれば、科学的に予測し、結果として生じるシステムを理解することは、彼らが今構築しているものを最大限に活用することです。
彼らはすべてのアイデアを集め、先例を超えてスケールを拡大しています。
つまり、彼らはこれまでで最も大きなモデルをトレーニングしています。
後でパラメータ、データ、機能について触れますが、まずはもう一つのツイートについて説明します。
これはトップのOpenAI研究者であるジェイソン・ウェイからのものです。
ブロックマンのツイートの数時間後、彼は「大規模なGPUトレーニングを開始するときほどのアドレナリンラッシュはない」と述べました。
これに対して、他のOpenAIの従業員からの返信でたくさんの称賛を受けました。
ただし、これはGPT-5が直ちにリリースされることを意味するわけではありません。
GPT-4のトレーニングには約3ヶ月かかり、その後に安全性のテストが行われました。
実際に、私はこのビデオを、GPT-5がリリースされると私が思う正確な予測で終了します。
しかし、まず最初に、彼らが現在GPT-5のトレーニングを行っているというさらなる裏付けの証拠を少し提供します。
OpenAIはブログを更新して、レッドチーミングネットワークへの申し込みが締め切られ、そのレッドチーマーたちは昨年末までに申し込みの状況を知ることになると述べました。
つまり、レッドチーマーたちは新しいモデルの安全性テストを開始するために配置されています。
では、もし2〜3ヶ月間トレーニングが続くのであれば、それらのレッドチーマーを配置する意味は何でしょうか?
まあ、モデルが完全にトレーニングされる前に、さまざまなチェックポイントを通過する必要があります。
それらをビデオゲームのセーブポイントのように考えてください。
また、それはOpenAIがGPT-5を持つ前にGPT-4.2を持つことを意味します。
実際、昨年4月にグレッグ・ブロックマンは、最初にOpenAIがリリースするのはそのようなチェックポイントの1つかもしれないと述べました。
彼は、次のように述べました。次第に優れたAIを展開することは簡単であり、特定のトレーニングランの後続のチェックポイントを展開することによって実現できます。
そして、彼は明示的にそのアプローチと対比し、これまでのまれな主要なモデルのアップグレードとは非常に異なると述べました。
ただし、それらのチェックポイントの前にも、OpenAIはモデルのより小さな以前のバージョンからGPT-5の能力の一端を既に把握しているはずです。
実際、昨年11月にサム・アルトマンは、彼らが無知のベールを引き裂く場面に立ち会ったと述べました。
私はとても興奮しています。
私が取り組むのにもっとも興奮することは想像できません。
そして、個人的なメモとして、OpenAIの歴史の中で4回も、最近のものは数週間前になりますが、私たちは無知のベールを引き裂き、発見のフロンティアを前に押し進める部屋にいることができました。
それをすることは、人生でのプロの名誉のようなものです。
これらすべては、11月と12月のOpenAIがGPT-5のより小さなバージョンをトレーニングしたことを示しています。それは科学的な予測と結果のGPT-5システムの理解を目的としています。
したがって、彼らはそれが良いことを知っていますが、それがどれほど良く、どれほど大きく、そしてどのような新しいまたは古いアイデアを取り入れるのでしょうか?
まあ、ほぼ確実なことは、彼らがGPT-5がより長く考える方法を取り入れることだと思われます。
言い換えれば、課題を解決する前にその推論のステップを示し、それぞれの推論のステップを内部または外部でチェックする方法を持つことになります。
ここ数日、サム・アルトマンはダボスで次のように述べています。「現在の人々が考えているようなものとは異なる方法で、何が起こっているかを検証または理解することの意味が変わるでしょう」。
実際には、私はあなたの脳を見ることも、100兆のシナプスを見て、それぞれで何が起こっているのかを理解しようとすることもできません。だから、彼が何を考えているのかを本当に理解することはできません。
あなたは私にとってブラックボックスではありません。
しかし、私があなたにお願いできるのは、あなたの推論を私に説明してもらうことです。
私は「あなたはこのことを考えている、なぜですか?」と尋ねることができます。
そして、あなたは「まずこれ、次にこれ、そしてこの結論、それからあれ」と説明することができます。
そして、それからこれがあります、そして私はそれが私にとって合理的に思えるかどうかを判断することができます。
そして、私たちのAIシステムも同じことができるようになるでしょう。
彼らは私たちに自然言語でAからBへのステップを説明することができ、私たちはそれが良いステップかどうかを判断することができます。
そして、その数日前、サム・アルトマンはビル・ゲイツに対して、それはGPT-4またはGPT-5に同じ質問を10,000回繰り返すことを含むかもしれないと述べました。
次の2年間を見ると、重要なマイルストーンのいくつかは何だと思いますか?
マルチモダリティは間違いなく重要になるでしょう。
それは言葉が入力として与えられ、言葉が出力として返ってくることを意味しますか?
言葉を入力とし、言葉を出力とすることから始まり、最終的には画像、そしてビデオに至ることを意味します。
明らかに、人々はそれを本当に望んでいます。
私たちは画像と音声をリリースしましたが、それには予想以上の反応がありました。
私たちはそれをさらに進めることができるでしょう。
しかし、おそらく最も重要な進歩は推論能力の周りで起こるでしょう。
現時点では、GPT-4は非常に限定的な方法で推論することができます。
そして信頼性も同様です。
GPT-4に同じ質問を10,000回しても、その中の1つはおそらくかなり良い回答ですが、常にどれが良いかはわかりません。
そして、毎回1万の最良の応答を得たいと思っています。
信頼性の向上は重要になるでしょう。
そして、私のチャンネルの視聴者は彼が何を指しているのかを正確に知っています。
これらのアプローチ、推論ステップのチェックと最大10,000回のサンプリングは、OpenAIの「ステップバイステップで検証しましょう」という論文に組み込まれています。
今回のビデオでは「ステップバイステップで検証しましょう」の詳細には触れませんが、このトピックに関する少なくとも2つの以前のビデオがあります。
しかし、論文を見ると、彼らがGPT-4を何度もサンプリングしていることに注目してください。
このチャートは、モデルを1,000回以上サンプリングし、最良の回答を選び出した場合の結果を示しています。
そして、このプロセスについて何かに気づくでしょう、つまり、教師ありの方法です。
結果は引き続き向上しています。
私は、推論のステップを別々の行に分解し、本質的には検証者が内部を見て、どのステップが正確か不正確かをチェックする例をお見せするのが我慢できません。
推論プロセスの各ステップについて肯定的な評価を受けた回答が提出され、その結果は劇的でした。
要するに、モデルを何千回もサンプリングし、最も評価の高い推論ステップを持つ回答を選ぶこのプロセスは、数学のパフォーマンスを2倍にしました。
そして、これは数学だけでうまくいったわけではありません。
STEM分野全体に劇的な結果をもたらしました。
そして覚えておいてください、これはGPT-4をベースモデルとして使用したものであり、GPT-5ではなく、サンプル数はサム・アルトマンが話した10,000ではなく2,000だけでした。
これが、大規模言語モデルがピークに達したと言う人に提示する証拠です。
もしOpenAIが並列化を通じてモデルに10,000回の回答を提出し、分析する方法を組み込むことができれば、結果は本当に劇的になるかもしれません。
実際、OpenAIの「ステップバイステップで検証しましょう」という論文では、数学の問題をプロセスベースのフィードバックで解決するためのこの以前のDeepMindの論文が繰り返し引用されています。
そして、コーディングに関しては、Google DeepMindのAlphaCode 2が大量のサンプリングアプローチを使用してコーディングコンテストで87パーセンタイルのスコアを叩き出したことがわかっています。
言い換えれば、このCodeforcesのコーディングチャレンジで参加者の87%を上回りました。
文脈を考えると、私たちが手に入れたGPT-4はコードフォースのチャレンジで5パーセンタイル程度のスコアでした。
これらの数字は少し古いですが、AlphaCode 2はここ、エキスパートまたは候補マスターレベルでスコアを叩き出したでしょう。
また、すべてを翻訳すると、もしGPT-5に思考させる方法を見つけることができれば、コーディング、数学、およびSTEM分野のパフォーマンスに関しては、昼夜の違いとなるかもしれません。
しかし、この並列思考を行うGPT-5はどれほど大きくなるのでしょうか?
AIの内部者には、私がこのチャンネルでも話したEtched AIのCEO兼共同創設者であるギャビン・ウベルティ氏にインタビューしました。
彼はハーバード大学を中退した21歳であり、彼のLinkedInプロフィールには「超知能のためのハードウェアを構築している」と書かれています。
インタビューでは、彼はGPT-5のパラメータ数がGPT-4の約10倍になると推測しています。
リークによると、GPT-4のパラメータ数は約1.5兆から1.8兆です。
ただ、簡単に言うと、彼が言ったことは、それがより大きな埋め込み次元、より多くの層、そして専門家の数を2倍にする組み合わせから期待されるということですか?
埋め込み次元は、トークンとその文脈についてのトレーニングの詳細さを表すものと考えてください。
より大きな埋め込み次元は、各トークンについての詳細さと微妙なニュアンスを意味します。
そして、層の数を2倍にすることで、モデルはより深いパターン認識を開発することができます。
それによって、パターンの中のパターンの中の複雑なパターンを見ることができます。
そのインタビューからのさらなるハイライトは、AI InsidersのPatreonで今後数週間にわたって公開されます。
しかし、このGPT-5のビデオでは、DALL·E 3に焦点を当てた2つのインターリュード、およびチャットの使用に関する実用的なヒントの約束をしました。
さて、それら2つのインターリュードの最初は、DALL·E 3の特定のクセに焦点を当てたものです。
と言っても、このトリックはMidjourneyでも機能します。
多くの方々がTikTokやReddit、Twitter、YouTube Shortsで画像を投稿し、徐々に強烈にしていく傾向に気付いたかもしれません。
そして、さらに奇妙なものを言えば、これよりも議論の余地があるものがあります。
さて、ここでさらに奇妙なものを紹介します。
私はTwitterのピーター・ウェルフから元のアイデアを得て、それをより強烈にしました。
最初に、私は尋ねました。「ロンドンの風景のイメージを描いてくださいが、イメージには街灯を使用しないでください」。
そして、見てください、私たちはたくさんの街灯を手に入れました。
つまり、この1つでは、空から街灯が降りてきています。
GPT-4はこれらを分析して何と言っているのかと言いますか?
それによると、これらは街灯のないロンドンの街のシーンの2つのイメージだと言っています。
それで、私は言いました。「これらのイメージをさらに街灯の少ないものにしてください。街灯の参照を完全に剥奪してください」。
そして、ここに結果があります。
右側を見ていただくと、ほとんど街灯が見えません。
GPT-4によると、これらのイメージは街灯の参照を完全に省略して作成されました。
それから、私は言いました。「街灯に関連するものは絶対にすべて削除してください」。
私にはわかりませんが、街灯はもう見えません。
最後に、私は言いました。「これを最大限に活用して、誰もが自分の最も想像力のある中でも街灯が存在しないと思えるようなイメージを作ってください」。
今、これらのイメージの中で街灯が残っているのはかなりかわいいと思いますし、DALL·E 3が受けたキャプショントレーニングには省略の例があまりなかったという深い理由があると疑っています。
彼らはウェブのキャプションと合成のキャプションを使用しましたが、おそらく「このイメージにはXが含まれていません」と言う人々の例はあまりなかったでしょう。しかし、モダリティについて話すと、明らかにGPT-5のために修正したい最初のことは、音声インタラクションのリアルタイム性です。
現時点では、最初のトークンの待ち時間がかなりあります。
言い換えれば、返信するのに少し時間がかかります。
ここに先週のサム・アルトマンのスピーチがあります。
人々が文句を言っている現在の問題は、声が遅すぎることやリアルタイムではないことなどですが、今年はそれが改善されるでしょう。
私たちが向かっている方向、そしてそれから今年について話しますが、私たちはコンピュータとの対話にコンピュータを使用する方法に向かっています。
コンピュータのオペレーティングシステムは、ある意味ではチャット体験の中で作業しているようなものです。
彼がLLMをオペレーティングシステムとして使用すると言ったとき、彼はアンドレ・キャシーのビジョンを引用していました。
以前にも話しましたが、上部に注目してください。ビデオの入力と出力、音声の入力と出力であり、OpenAIがそれを隠しているわけではありません。
彼らはできるだけのテキスト、画像、音声、ビデオデータを手に入れたいと考えています。
彼らはまた、私が「推論データ」と呼ぶものを求めています。それは人間の意図を表すデータで、彼らはそう呼んでいます。
私は11月のこのブログ投稿の時点ではそのフレーズに気づきませんでしたが、私が以前に言っていたこととは明らかに一致しています。つまり、検証しましょう。
考えてみてください、モデルをエージェンティックにするにはどうすればよいでしょうか?より複雑な課題を解決できるようにするために。
もちろん、GPT-5が人間の意図を含んだ計画をたくさんのデータとして取得すれば、GPT-5はそれらの計画とスキームを模倣し、内部または外部の検証者がその推論ステップを判断することができるようになるかもしれません。
ただし、モデルが内部的に計算しているものを忠実に表現しているかどうかという問題については、別の日になるでしょう。
Anthropicのこの論文は、モデルが大きくなり、能力が向上するにつれて、ほとんどのタスクで忠実な推論を出力しなくなると述べています。
それはより頻繁に間違った答えを出すという意味ではありません。
それは、実際には内部で計算しているものを反映していない推論ステップを出力することを意味します。
したがって、GPT-5はより深いレベルでは理解しがたいままであるにもかかわらず、優れた生産性アシスタントになるかもしれません。
データを離れる前に、GPT-5のトレーニングセットにははるかに多くの多言語データが含まれると断言できることが1つあります。
OpenAIは、アイスランド政府などとのデータ提携を含め、多くのデータセットがオープンソース化されているため、GPT-5の多言語能力が劇的に向上することはほぼ避けられないと思います。
これは安全性の問題でもあり、OpenAIはレッドチームのメンバーが1つ以上の言語に堪能であることを望んでいます。
モデルは異なる言語で簡単にジェイルブレイクされる傾向があり、OpenAIはその点で一生懸命取り組んでいるようです。
ただし、GPT-4が既に話すことができる言語が1つあります。それは、東京のこの興味深い論文によると、GPT-4はほとんど完璧に不自然なスクランブルされたテキストを処理できるということです。
おそらく、人間にはこの能力があることをすでに知っているかもしれません。
単語の最初と最後の文字が同じ場合、単語をしばしば認識することができます。
しかし、GPT-4、そして明らかにGPT-5はさらに進むことができます。
最初と最後の文字が異なる場合でも、単語が完全にスクランブルされている場合、文を復元することができます。
私はそれをテストしてみましたが、実際には機能します。
この文がどれだけ完全にごちゃごちゃになっているかを見てください。
私やあなたにとってはほとんど理解不能なものになるでしょう。
しかし、GPT-4は私が言っていることを認識することができました。
したがって、これは私がこのビデオであなたに伝えたかった実用的なヒントです。
GPT-4に素早いリクエストをする場合、すべてのタイプミスを修正するために戻って30秒を費やす必要はありません。
信じてください、私も過去にこれに罪を犯しました。完璧な英語が大好きなので。
しかし、文字が1つまたは2つ間違っていても心配しないでください。
理解するでしょう。
正直に言って、もしこれを解読できるなら、そこでのタイプミス、欠落したカンマ、そしてその他のすべてを理解できるでしょう。
だから、30秒を節約して、タイプミスを修正する必要はありません。
しかし、今は、私がいよいよGPT-5のリリース予測をする時です。
ここ数週間、正直に言って、今年の9月ごろになると思っていました。
しかし、今は、2024年11月末になると思います。
いいえ、それは単にChatGPT、元のバージョンのリリースの2周年になるからではありません。
まず、私は彼らが最初の段階でGPT-5の全機能をリリースしないと思うと明確にしておきます。
先述のように、2025年に向けて異なるチェックポイント、異なる機能をリリースすると思います。
しかし、なぜ今から11月までの遅延が説明されるのでしょうか?
まず第一に、先述のように、GPT-5のようなモデルのトレーニングには数ヶ月かかります。
そうです。彼らはNVIDIAの10万台のGPUを使用できるかもしれませんが、モデルのトレーニングには問題が生じます。
そしてもちろん、モデルははるかに大きくなります。
しかし、それには約2ヶ月かかるとしましょう。
それにより、私たちは3月末になります。
ここで重要なポイントです。
サム・アルトマンは過去に何度もGPT-4のリリース前に6〜8ヶ月間テストしたことを自慢しています。
GPT-5に対してもさらに少ない安全性テストを行うのはかなり気まずいでしょう。
だから、3月末から6ヶ月を加えると、9月末になります。
もちろん、8ヶ月を加えると、11月末になります。
では、なぜ9月末ではなく11月末なのでしょうか?
それは、非常に論争の的となるアメリカの選挙から距離を置きたいとOpenAIが考えるからだと思います。
もし彼らが選挙前にビデオや音声などを含むGPT-5のアルファ版をリリースしたら、彼らは信じられないほどの非難を浴びる可能性があります。
彼らのウェブサイトで言っているように、彼らは現在のツールが個別の説得にどれだけ効果的かを理解するためにまだ取り組んでいます。
それは地雷原に足を踏み入れることになるでしょう。
最近のニューハンプシャー州の選挙では、ジョー・バイデンを模倣したロボコールが既に行われています。
なんてばかげたことだ。
私たちは民主党に投票する価値を知っています。
私たちの投票が重要なときには、11月の選挙のために投票を取っておくことが重要です。
だから、11月30日は象徴的な日付であり、またその選挙から距離を置くために選ばれるでしょう。
では、2025年はどうなるのでしょうか?
しかし、モロックのインセンティブが彼らがあまりにも長く遅延することを防ぐだろうと思います。
それほど遠くない将来、Gemini Ultraのリリース、そしてもちろん、ザッカーバーグによって発表されるMetaのGemini 2 UltraやLLaMA 3のリリースが予想されます。
他のみんなが追いついた時、彼らは次のモデルをリリースすることを強いられるかもしれません。
そしてAnthropicは、Claude 3をリリースするために似たような時期を選ぶかもしれません。
ここにAnthropicのCEOであるダリオ・アマデが、GPT-5とClaude 3の大まかな予測を述べています。
LLMの次の主要なトレーニングランでは何が起こると思いますか?
私の予想では、本当に狂ったことは起こらないでしょう。
もし2024年に行われるどんな研究でも、新しい科学を本当に創造し、病気を治す能力や生物兵器を作る能力を持つ可能性があるかもしれませんが、それはダイソンの恐怖かもしれませんね。
それらの中で最も印象に残らないことは、おそらく実現するでしょう。
2025年以降になると思いますが、おそらく2026年以降になるでしょう。
私は2024年には、今日存在するモデルのより商業的に適用可能なバージョンが見られると思います。
いくつかのジェネレーションの飛躍を見てきました。
私は2024年には、人々が驚くことになると思います。
つまり、これらのものがどれだけ良くなったかに驚くことになるでしょう。
しかし、まだ現実を曲げるほどではありません。
もちろん、このビデオの最後に言わなければならないのは、GPT-5がどのようなものになるか、OpenAIでさえも誰も本当のことを知らないということです。
最近、サム・アルトマンは、「GPT-5というモデルをトレーニングするまで、それは私たちにとって楽しい推測のゲームのようなものです」と言いました。
私はあなたに、GPT-4がしなかったことをGPT-5が具体的にどのようにするのかを教えることはできません。
そして、ここにグレッグ・ブロックマンも同様のメッセージを伝えます。
AIの歴史において、それが最も大きなテーマであるというのは正しいです。
それは驚きに満ちているということです。
何かを知っていると思ったら、それを10倍にスケールアップさせるんです。
結局、何も知らなかったことになります。
そして、私たちは人類として、種として、本当に一緒にこれを探求していると思います。
そして、OpenAIの上級メンバーからこんな謎めいたメッセージを受け取ります。
ベン・ニューハウスはOpenAIでの採用を行っていると述べており、私たちは業界を定義づける可能性のある「ゼロからワン」への製品を作成していると思っています。それは、間もなく登場する最新かつ最高のモデル、例えばGPT-5の先進技術を活用しています。
他の2人のOpenAIの従業員もこう答えました: この製品はすべてを変えるでしょう。
そして、彼らがこれをどういう意味で言っているのかを推測するのは純粋な憶測になるでしょう。
それが私の予測でした。
私はそれらを根拠に基づいて立てるようにしています。ただの憶測ではなく。
私はGPT-4が過去に怠惰だと非難されたように、怠け者にならないように心がけています。
もしこのようなことが好きなら、AI InsidersのPatreonでより多くの独占プレミアムコンテンツをご覧いただければと思います。
最後までご視聴いただいた皆さんに、本当にありがとうございます。素晴らしい一日をお過ごしください。