見出し画像

速報!! OpenAIがGPT-5を発表 [100倍大規模化]

本日GPT-5に関する大きなニュースがありました。アーキテクチャに関する具体的な詳細と、間もなくリリースされるという予想時期が明らかになりました。これはOpenAI自身からの発表です。見出しとしては、このモデルがGPT-4よりも桁違いに優れていることを確認しているということです。詳しく見ていきましょう。
AIセーフティミームズに大変感謝します。元々はBioshockさんが投稿したものだと思いますが、OpenAI日本のCEOが次のように述べています。GPTネクストは今年リリースされ、その実効的な計算負荷はGPT-4の100倍になるとのことです。
これは9月3日に開催されたKDDIサミット2024というイベントで、OpenAI Japan株式会社代表執行役員社長の永田達氏による講演でのことです。つまり馬の口から直接聞いたようなものです。OpenAIのサンフランシスコ本社ではなく日本オフィスからですが。これはマイクロソフトが語っていたGPTネクスト、次の大型モデルについての内容と一致します。多くの噂や発表が一致してきています。
GPTネクストは2024年中にリリースされ、前バージョンのGPT-4の100倍になるとのことです。GPT-4はGPT-3時代の100倍でした。そして将来のモデルは前のモデルの100倍になるそうです。
これらの数字を本当に理解するためには、「o」が何を意味するかを知ることが重要です。今後これについてよく耳にすることになるでしょう。なぜなら、これらのモデルを説明するのに使われる多くの指標が数十億、数兆の単位になってきているからです。すべてが100倍、1000倍と表現されるようになっています。
内部の人々がモデルとその能力を大まかに比較する際によく使う方法の1つが、桁数を数えることです。桁数とはもちろん、オーダーオブマグニチュードのことです。モデルを10倍に増やすと、それは1桁の増加です。つまり最後に0を1つ付け加えるということです。桁数とは基本的に100倍以上のことを指し、最後に複数の0を付け加えることを意味します。
計算力、つまりこれらのモデルに投入するコンピューターのパワーについて話すとき、計算力の増加は非常に予測可能な形で効果を発揮します。計算力が大きいほど、モデルの性能が向上します。
例えば、ここ左側はSoraからの基本的な計算力、最低レベルのものです。彼らは帽子をかぶった子犬の写真を生成しようとしましたが、良い結果は得られませんでした。計算力を4倍にすると、突然子犬や脚、帽子、背景の飼い主、雪、影などが見えるようになります。次に基本の32倍の計算力を投入すると、突然良くなり、鮮明でシャープで写真のようにリアルになります。同じモデル、同じデータ、同じプロンプトで、変わるのは計算力だけです。
2019年のGPT-2が2020年のGPT-3や2023年のGPT-4とどう比較されるかを知りたければ、そこに投入される計算力を推定できます。フロップスを見ることができます。これは例えばアメリカやEUで可決された法律でも使われています。これらのモデルがどれほど強力かを測る指標としてフロップスを使用しています。
しかし、もっと簡単な見方としては、桁数、つまりオーダーオブマグニチュードを見ることです。GPT-2はかなり劣っていて、幼稚園児レベルのタスクしか確実にこなせませんでした。GPT-3は小学生レベル、GPT-4は賢い高校生レベルです。
GPT-3.5は様々なLSAT、SAT、AP微積分、化学などのテストで34パーセンタイル、32パーセンタイル、時には86、87パーセンタイルと高く、時には3パーセンタイルと低くなります。一方GPT-4は90パーセンタイル、88パーセンタイル、97パーセンタイル、99パーセンタイルと、一般的にはトップに非常に近い成績を示します。
GPT-2からGPT-3への飛躍は約2桁、2オーダーオブマグニチュードでした。つまり100倍か200倍くらいと考えられます。1000倍だと3オーダーオブマグニチュードになります。そのくらいの範囲です。そしてGPT-3からGPT-4への飛躍も、基本的にまた2桁、あるいは1.5から2桁くらいの増加です。
これは非常に重要な指標です。2オーダーオブマグニチュードの増加が、GPT-2、3、4の間で見られる飛躍です。OpenAI日本だけでなくマイクロソフトもこの成長、つまり2オーダーオブマグニチュードの成長をモデル間で維持し、間もなくリリースされる次のモデルだけでなく、その次のモデルでもそれを予測しているという事実は、このトレンドが止まらないこと、減速しないことを示唆しています。
彼らはまた、以前の動画で取り上げたOrionとStrawberryについても言及しています。これらのモデルは他のモデルを訓練するための合成データを生成するのに使用できるという考えでした。Strawberryはもちろん、様々な問題についての推論、つまりどのように推論するかを生成するのが得意です。
これはマイクロソフトがOrca 2で早くから示していたことで、モデルの出力、つまりモデルが出力する推論が、より小さくて非常に能力の高いモデルを作るのに非常に効果的だと言っていました。
OpenAIが本当に多くのことを変えようとしているのを見るのは興味深いです。まだ真実かどうかはわかりませんが、より小さなモデルを生成する一種のハイブクイーンのような考え方にシフトしているように見えます。彼らはそれを示唆していますが、まだ100%確実ではありません。
しかし彼らは、GPT-4ネクストが2024年にリリースされる予定で、GPT-4とほぼ同じ計算リソースを使用してStrawberryのミニチュア版で訓練され、実効的な計算負荷は100倍になると言っています。この実効的な計算負荷という考え方は興味深いです。
レオポルド・アッシェンブレナーは彼の状況認識に関する論文で、それが何を意味するかについて語っています。彼は、AIの進歩、これらの指数関数的な増加を、いくつかの異なる要素として考えることができると言っています。
1つは単純に計算力です。より多くのハードウェア、より多くのチップがこれらを動かしています。また2つ目は、アルゴリズムの効率性です。アルゴリズムの進歩を実効的な計算力の増加と考えることができます。
これらのモデルをより速く、より効率的に動作させる方法を見つけることができれば、実質的に同じ量の計算でより多くのことができるようになります。これが重要な理由は、多くの人が「ああ、だから彼らは100倍多くの電力を使っているのか、100倍多くの廃棄物を生み出しているのか」と考えるかもしれないからです。必ずしもそうではありません。アルゴリズムの進歩も考慮に入れる必要があります。
3つ目は、明らかな方法でモデルが制限されているのを解除し、潜在的な能力を引き出し、ツールを与えることで、有用性に段階的な変化をもたらすことです。
ここで彼らは、この100倍の増加がおそらく計算リソースの拡大を指すのではなく、むしろアーキテクチャや学習効率の改善を含む実効的な計算量を指すものだとより明確に説明しています。おそらくハードウェアとアルゴリズムの改善の組み合わせが、合わせてその100倍の改善につながるのでしょう。
最近注目を集めているOrionは、GPT-4と比較して10,000台のH100に相当する計算リソースで数ヶ月間訓練され、計算リソースのスケールを10倍に増やし、3オーダーオブマグニチュード増加させました。来年のいつかにリリースされる予定です。
これは本当に素晴らしいチャートです。ソースはLinkedInのピーター・ゲブさんのようです。ブラボー、ピーター、これは素晴らしいですね。多くのことがどのように進んでいるかを本当によく示していると思います。
GPT-3からGPT-4への飛躍がありますが、もちろんそれは大幅なスケールアップです。はるかに大きくなっています。GPT-5についても同じことが言えます。さらに大きくなります。どれくらい大きくなるかは、すぐにわかります。
GPT-4は約1.7兆パラメータだったと考えられていますが、同時に、これらのより小さく、より速いモデルを作るための最適化を行っていることも理解することが重要です。GPT-4.0 mini、GPT-4.0などです。
レースは単に可能な限り最高で最大のモデルを構築することだけではありません。それらを蒸留し、量子化し、より効率的にすることができるかどうかも重要です。つまり、有用性や効果の99%を引き出しながら、サイズを3分の1や半分にすることができるかどうかです。
これは再びKDDIサミット2024での永田氏の発言です。OpenAI日本のCEOです。彼は8月末時点でChatGPTのアクティブユーザー数が2億人を超えたと述べています。これは史上最速で1億から2億人のアクティブユーザーに到達したソフトウェアです。
彼はChatGPTをあらゆるものに統合する計画があると述べています。iPhoneへの統合については知っていました。アップルとの何らかのパートナーシップがあることは分かっていました。しかし、他にもたくさんあるようです。
Spotify、Harvey、コカ・コーラ、M&A、アップル、これはモルガン・スタンレー、BCGです。この2つは判別できませんが、このロゴは見覚えがあります。
彼はGPT-4がもちろんマルチモーダルで、オーディオや画像などのデータ形式を扱えると述べています。コメント欄で教えてください。あなたの携帯電話でそれを使えていますか?アルファ版を使える幸運な少数の1人ですか?まだアルファ版をロールアウトしている段階だと思います。
次に彼はGPTネクストが100倍大きくなること、そしてAI技術が指数関数的に成長することを述べています。
Q&Aセッションで永田氏はなぜOpenAIに関わることになったのかを説明し、日本がAIを正しく理解し、正しく使用し、適切な結果を達成するのを助けたかったと述べています。
彼は、AIが今までの技術と何が違うかというと、人間ができることをAIができるということだと述べています。そのため、私たちがサービスと呼ぶものを非常にポジティブな方法で変える可能性があります。社会への影響とその規模は巨大になるでしょう。私は本当にそれに貢献したいと思いました。そして、実際にそれができると思ったのです。
彼はまた、日本とAIは相性が良いと述べています。もちろん日本はAIに関して最も寛容な法律を持つ国の1つです。特に著作権に関して、様々な画像でAIモデルを訓練することや、著作権の扱い方について、日本は最も寛容で開放的で、AIフレンドリーな法律を持つ国の1つだと思います。
OpenAIがなぜ日本をベイエリア以外の拠点の1つとして選んだのかと聞かれたとき、永田氏は次のように答えました。日本には革新的な技術や新しい技術を熱心に追求してきた歴史があります。そして本当に、彼らが可決した法律は、これらのAI企業に対して次のようなシグナルを送っていると思います。「日本は協力します。こちらに来て、私たちと一緒にプレイしてください。アジアでの事業展開の良い拠点となるでしょう」と。
彼はまた、AIは日本にとって素晴らしいものになると信じています。日本は少子高齢化などの社会問題に最初に直面する国の1つです。これは確かです。AIが多くのサービスを行い、最終的には物理的なタスクを手伝うロボットが登場することを期待しています。労働力人口が縮小し、高齢化が進む中で、そのようなものは確かに役立つでしょう。大きな影響を与えるはずです。
これは以前も触れたと思いますが、エージェントスタートアップMinion AIのCEOであり、GitHub Copilotのチーフアーキテクトだったアレックス・グラボウスキーは、Strawberryを使用してより高品質のトレーニングデータを生成することで、OpenAIのモデルが生成するエラー(幻覚としても知られています)の数を減らせる可能性があると述べています。
彼は次世代のモデルを訓練するための高品質な合成データを生成することについて話していると思われます。彼は続けて、「幻覚がなく、論理パズルを解き、一発で正解するモデルを想像してみてください。モデルがそれを行える理由は、トレーニングデータがより曖昧さが少ないからです。そのため、推測する必要が少なくなります」と述べています。
これは再びOrca 2の大きな特徴でした。おそらくこれが可能であることを示した最初の研究ではありませんでしたが、QARペーパーでも同様のことについて言及されていました。基本的に、モデルに問題を与え、それを解決するためにステップバイステップで考えるよう求め、その出力、そのデータを使って全く新しい小さなモデルを訓練するのです。そして、その全く新しい小さなモデルがその種の推論を行うのが非常に得意になるのです。
あなたは「なぜOrionやStrawberryのような1つの大きなモデルではなく、それぞれが独自のことを行う100万の小さなモデルを作らないのか」と疑問に思うかもしれません。よく聞いてくれました。ここにジミー・アップルズの発言があります。「GPT-5とサムスンの幹部。ノイズが大きくなっています」。
これはセミコン台湾からの画像です。オンラインで調査して何が分かるか見てみましょう。画像を拡大...いや、そんなことは実際にはできませんね。残念。
ここのパラメータ数がよく分かりません。GPT-4は1.7兆です。GPT-5も兆単位ですが、これは何でしょう?3-5兆のように見えますが、違います。ここでダッシュが真ん中にあるはずだからです。
チャビーさんがここで素晴らしい推測をしています。3x5のようだと言っています。つまり、エキスパートの混合だと仮定できます。まさに私たちが話していたアイデアです。1つの大きなモデルではなく、いくつかのサブモデルの集合体、多くの小さなモデルが一緒に組み合わされているのです。そして質問をすると、その質問に答える正しいモデルにルーティングされるのです。
人々はこれを3x5、つまり5兆パラメータのモデルが3つあると読んでいるのでしょうか?それは正しくないように思えます。
セミ・アナリシスが2023年7月10日に投稿したこの記事では、GPT-4の背後にある潜在的なアーキテクチャやトリックの多くについて暴露しています。例えば、OpenAIがGPT-4で16のエキスパートを使用したと信じられていました。エキスパートの混合、16のエキスパートです。
研究者たちは64から128のエキスパートを使用すると16のエキスパートよりも良い損失が達成されることを示していますが、それは純粋に研究です。
ここにはTiny CorpのGeorge Hotzとのポッドキャストがあり、Latent Spaceで公開されています。彼がGPT-4の実際のアーキテクチャについてどう考えているかについての短いクリップがあります。
「人々が計算力を人間と比較する際に考えるべき数字はどのようなものですか?」
「GPT-4は100人年の訓練でした。それはより時間スケールに近いです。20ペタフロップスが1人年です。」
「今、その計算では、我々が建設した最も高価なもの、つまり国際宇宙ステーションの価格で、1タンパの...1タンパの計算力を構築できるということでした。」
「そうですね。今日の最大の訓練クラスターについては、GPT-4がどのように訓練されたかについては詳しくは知りませんが、重みやその他についてのおおよその数字は知っています。」
「LLaMA 2は1兆パラメータです。そうですね、GPT-4は各ヘッドが2200億で、8方向のミクスチャーモデルです。ミクスチャーモデルは、アイデアが尽きたときに使うものです。」
「それはミクスチャーモデルで、彼らは同じモデルを8回訓練し、16回の推論を行うような小さなトリックがあります。しかし、それはビジョンモデルや言語モデルの側面とは関係ありません。それは単に、2200億パラメータ以上のモデルを実際に作ることができないという事実と関係しています。」
「より良くしたいのですが、どうすればより良くできるでしょうか?より長く訓練することができます。実際、それはすでに最大限に達しており、収穫逓減が発生しています。エキスパートの混合?そうですね、エキスパートの混合を行います。8つ訓練しましょう。」
「本当の真実は、アップルを除いて - アップルは唯一の例外ですが - 会社が秘密主義になるのは、それほどクールではないものを隠しているからです。」
「人々は何度も何度も間違った考えを持っています。秘密にしているのは本当にクールだからだと思っているのです。すごいに違いない、1兆パラメータに違いないと。いいえ、GPT-3よりちょっと大きいだけで、8方向のエキスパートの混合を行っただけです。」
「誰でも8倍のお金を使えば、それを得ることができます。」
私は1年以上前に投稿した動画を掘り起こして、実際の詳細を見つけなければなりませんでした。これはまだ私が始めたばかりの頃で、多くの人が私の動画の背景に何があるのか尋ねてきました。ここでは何なのかがわかると思います。
実際、多くの動画では何なのかわからなかったし、当時は認めるのが恥ずかしかったのですが、今はもっと恥知らずになったと思います。これは私のベッドでした。ここで寝て、ベッドから転がり出て、机に座ってAIの動画を録画していました。おそらくあなたは気にしないでしょうが、そういうことです。
さて、プレゼンテーションに戻りましょう。彼らはGPT-5、あるいはGPTネクスト、何と呼ばれるにせよ、そのモデルサイズをここに記載しています。その数字は何でしょうか?325兆でしょうか?それならなぜここの記号はこうなっているのでしょうか?チャビーが推測しているように、3x5兆の何かでしょうか?
私だけでなく、他の人もこの記号が何を意味するのか理解しようとしているようです。もしこれが何を意味するのかわかる人がいたら、コメント欄で教えてください。そしてこのグラフィックを作った人たちに言いたいことが1つあります。ナンド。
もちろん、これはマイクロソフトが今年初めに発表したことと一致します。GPT-5のサイズはオルカ(GPT-4)からシロナガスクジラへのジャンプのようなものだと。
オルカと言えば、オルカよりもはるかに大きな先史時代のクジラがいたことをご存知でしたか?レヴィアタンと呼ばれていました。オルカよりもはるかに大きく、非常に賢く、群れで狩りをしていました。聞いた話では、メガロドンと競合し、あらゆるものを完全に破壊して食べていたそうです。参考までに、これがその歯です。
なぜこの話をしたのでしょうか?正直よくわかりません。タイムトラベルに手を出さない理由がもう1つ増えただけかもしれません。
今日の動画を楽しんでいただけたなら、ぜひ親指を立てて、チャンネル登録をお願いします。私の名前はウェス・ローゼンバーグです。ご視聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?