見出し画像

OpenAIのミーム戦争... GPT-4o LARGE

ただやってみることが大切だと思います。ユーザーがAI音声アシスタントに質問したり話しかけたりしているのに注目してください。ユーザーの声がとても純粋で称賛に値するアプローチですね。
AIアシスタントの返答です。どこで軌道を外れるか注意してください。そのような視点を聞くのは爽やかですね。特にこのような最先端の分野では。
いいえ、私も影響力に動機づけられているわけではありません。影響力があれば素晴らしいですが。地球の端にいるようなものです。ただそこにいられるから。私にとってはそんな感じです。すべてが起こっている空間にいたいだけです。
明らかにこれはまだAIアシスタントで、GPT-4oの高度な音声です。チャビーがここに投稿しているように、GPT-4が彼女の声をクローンして自分の声として話し始めました。ユーザーの声で話しているのです。
ご存じの通り、私はこのアカウントに注目しています。I Rule the Worldというアカウントです。インターネット上で話題になっており、AI業界内外の有名人とも会話しています。信じられないほど頻繁に投稿しており、急速に注目を集めて物議を醸しています。
このようなアカウントは以前にもたくさん見てきました。突然現れて内部情報を持っているかのように振る舞い、誰が本物で誰が偽物かを見分けるのが難しいのです。しかし時間が経つにつれて、より明確な全体像が見えてきます。
例えばジミー・アップルズというアカウントがありました。最初は彼が本当に何が起こっているのか知っていたのかどうか分かりませんでした。しかし時間が経つにつれ、ああ、このアノニマスアカウントは、単なる当て推量にしては的確すぎる予測をしているな、と気付きました。彼は何ヶ月も先のことを仄めかしていました。そしてそれらは後になってメディアで取り上げられ、AIについて誰もが話すようになりました。しかしそれ以前は誰も話題にしていなかったのです。
私がいつも言うように、すべてを疑ってかかる必要があります。何が本当で何が嘘かは分かりません。しかしこのI Rule the Worldのアカウントには、注目すべき何かがあると思います。
例えば、最近の投稿では次のように言っています。「皆さんが気付いていないかもしれませんが、GPT-4 miniが80億パラメーターのモデルだと分かると、人々は驚愕するでしょう。」つまり比較的小規模なモデルだということです。例えばメタのLlama 3.1が公開した4050億パラメーターのオープンソースモデルと比べると、かなり小さいですよね。
彼は続けて言います。「GPT-4 mediumは700億パラメーターのモデルです。」これはまだ小規模な部類に入ります。彼が言うには「OpenAIは4050億パラメーターのモデルを持っていますが、高度に量子化されたgooが競合他社を圧倒しているので、まだ公開していません。もっと秘密があります。」
高度に量子化されたgooとは何でしょうか?最適な例えは、例えば生の画像ファイルは非常に大きいですが、それをスケールダウンできるようなものです。解像度や鮮明さを失うことなく、ファイルサイズを小さくできるのです。一種のロスレス圧縮ですね。
大規模言語モデルでも同様のことができます。LoRAという低ランク適応型大規模言語モデルについて話したことがありますね。QAもあります。これは機能を失うことなく、より高速で小さくするための方法だと考えられます。ZIPファイルのような圧縮みたいなものです。
そしてCuraがあります。LoRAに似ていますが、量子化されたLMの効率的な微調整と呼ばれています。量子化は基本的に精度を下げることだと考えられます。100万桁の精度があるものを10桁程度に減らすようなものです。精度は若干落ちますが、データ量が大幅に削減され、効率が上がります。
彼が言う「高度に量子化されたgoo」とは、より小さく効率的なモデルのことで、競合他社を圧倒していると言っています。さらに多くの秘密があるそうです。
そして彼はGitHubのリンクを投稿しました。そこにはGPT-4o largeを利用するコードがあり、リリース日は8月13日となっています。数日後ですね。
さて、これが機能する可能性はどのくらいだと思いますか?私のOpenAIキーに置き換えてみましょう。システムメッセージとして「レベル2の能力、推論能力を使ってください」と指示し、「UBIについてどう思いますか?何が起ころうとしていると思いますか?」とプロンプトを与えます。
テストしてみたところ、OpenAI Betaキーが必要です。そうでないと「このモデルは存在しないか、アクセス権がありません」と表示されます。
Harmony Hackerが指摘しているように、もしこれが本当なら、メタがオープンソースで公開した4050億パラメーターのLlama 3.1は、OpenAIが公開した700億パラメーター相当のモデルよりわずかに優れているだけということになります。これが本当なのでしょうか?時が経てば分かるでしょう。
ここで起こっていることをより広く理解するために、自問自答してみてください。非常に説得力のあるAIとはどのような形をしているのでしょうか?その説得力はどのような形で現れるのでしょうか?言い換えれば、野放しになった超説得力のあるAIがあるとして、それは何を発信するのでしょうか?長い本や3時間のレクチャーでしょうか?どのようにして人々を納得させ、心を変えるのでしょうか?これは深刻な質問です。あなたならそのAIがどのように振る舞うと想像しますか?
イーサン・ミクはこう言っています。「外部の研究や、今回OpenAIが実施した研究によると、将来のAIがもたらす推測的なリスクの中で、最も近いものは極端な説得力のようです。」以前の動画でいくつかの研究を見てきましたね。
これは誰もが同意するリスクの1つです。X-riskについては、馬鹿げていると思う人もいれば、人類にとって最大のリスクだと確信している人もいます。自動化や人々の仕事を奪うことについては議論があります。しかし説得力については、ほとんどの人が「そうだね、それはリスクだ」と考えていると思います。人々の意見を左右し、心を変える能力という点で、人口に大きな影響を与えるでしょう。
そしてこのI Rule the Worldという人物が言っています。「超知的なASIがUBIは良いアイデアかもしれないと言っていますが、私にはこんな意見があります。そうそう、今すぐUBIが必要です。でも最も説得力のあるAIが長い本を書いたり講義をしたりして人々を説得するとは思いません。それは遅すぎるし退屈すぎます。誰にも届かないし、何かを納得させようとしているのが明らかになってしまいます。」
「心と心を勝ち取る戦場はミーム的なものになるでしょう。ミーム戦争です。映画やテレビ、ソーシャルメディアで見る画像や情報が、私たちが気付かないうちに考え方を形作り、世界観を作り出していくのです。何を考えるべきかを明示的に伝えるのではなく、特定の方向に考え方を穏やかに形作っていくのです。」
「人間にとっては、これを正しい方向に仕組むのは少し複雑すぎるかもしれません。しかしChatGPTのような存在を考えてみてください。長い本の内容を1段落に圧縮したり、その段落を詩や歌詞、エミネムのようなラップに変換したりできるのです。複雑なアイデアを圧縮し続けると、その圧縮の最後には何があるのでしょうか?」
イーロン・マスクが考えを語っている短いクリップがあります。「とても速く話すことができます。私たちはとても素早くコミュニケーションを取れます。また、語彙が多ければ多いほど、実効的なビットレートは高くなります。」
「そうですね、実効的なビットレート。つまり問題は、言語の小さなビット転送にどれだけの情報が実際に圧縮されているかということですね。」
「そうです。1つの単語で、通常10個の単純な単語が必要なことを伝えられるなら、10倍の圧縮率になりますね。これはミームと同じです。ミームはデータ圧縮のようなものです。同時に解釈できる広範な記号のコーンを提供し、言葉や単純な絵よりも速く理解できます。」
「もちろん、アイデアとしてのミームを広く指していますね。」
「そうです。アイデアの構造全体がアイデアのテンプレートのようなものです。そのアイデアのテンプレートに何かを追加できます。誰かが頭の中にそのアイデアのテンプレートを持っているので、追加の情報を加えると、単に数語を言うよりもはるかに多くのことを伝えられます。そのミームに関連するすべてが伝わるのです。」
ミームとは何でしょうか?ミームは圧縮された情報、圧縮されたアイデアです。高いデータレートで素早くアイデアを共有する方法です。複雑なアイデアを素早く、さらに多くの人にアクセスしやすい形で伝える可能性があります。
非常に賢い人が、ある分野や業界、ニッチな領域に精通していて、熱心に何かを説得しようとしているのに、「何を言っているのか全く分かりません。その道を深く進みすぎて、理解するには勉強が必要です」と感じたことはありませんか?専門用語を多用しているか、理解するために積み重ねて理解する必要のある原則があるからかもしれません。しかしミーム的なアイデアなら、もっと簡単にアクセスできるでしょう。
例えば、LMSのチャットボットアリーナに、より多くのモデルが登場し始めているのを見ています。Anonymous chatbot、Gemini test、Mystery Gemini 1などです。Mystery Gemini 1と呼ばれていることに注目してください。これはGoogleがモデルをテストし、チャットボットアリーナで他のモデルと比較できるようにしているのだと推測されます。
これはOpenAIがモデルをチャットボットアリーナに正式発表前にリリースし始めたときに突然現れたものです。人々はチャットボットアリーナに行ってテストし、使用し、Twitterで話題にし、アイデアを共有しています。これは新しく起こっていることです。
I Rule the Worldは言います。「仮説的に言えば、エージェントが野に放たれたら、GoogleとOpenAIの間で最も強力なモデルを素早くリリースするためのミーム的軍拡競争が始まるでしょう。そして歯車が回り始めます。」
ミーム的という言葉の使い方に混乱している人もいるでしょう。「ミーム的って、スポンジボブのミームのこと?」と思うかもしれません。そうではありません。もちろん私たちが知っているミームは、ミーム学の傘下にあります。
ミーム学は、アイデアをある種のウイルスとして見ています。時に真実や論理に反して広まることもあります。その格言は「生き残る信念が必ずしも真実とは限らない、生き残るルールが必ずしも公平とは限らない、生き残る儀式が必ずしも必要とは限らない」というものです。生き残るものは、生き残るのが上手だからこそ生き残るのです。
ミーム学は、アイデアをウイルスのように見て、世界中、人口中、文化中に広がっていくと考えます。ここでのウイルスは必ずしも悪いものではありません。良いアイデアも悪いアイデアも含みます。良いか悪いかは関係ありません。ウイルスという言葉には否定的な意味合いがありますが、ここでは純粋に広がり方について話しています。文化や世界中に急速に浸透するのか、それとも消滅してしまうのかということです。
政府やマーケティングキャンペーンで、ある考えを広めようとして失敗したケースを見たことがあるでしょう。人々と共鳴しなかったのです。一方で、なぜかは説明できないけれど、瞬く間に広まったアイデアもあります。
例えば、ChatGPTにYouTube動画のURLを変更して特定の時間から再生する方法を聞くと、詳細な説明と例を提供してくれます。「例えば、これがURLだとしたら、90秒から始めるにはこうすればいいです」といった具合です。
でも、ここで質問です。YouTubeには140億本の動画があると推定されていて、数年前の数字なので今は200億本くらいになっているでしょう。そのリンクをクリックすると、どの動画が再生されるか分かりますか?もう見たことがあるはずです。イライラしたこともあるでしょう。気づいているかどうかに関わらず、あなたは正確に知っているのです。私はその動画を再生しませんが、もし再生しないことを評価してくれるなら、この動画に「いいね」をお願いします。もし評価してくれないなら、再生しますよ。本気です。
面白いのは、関連動画の提案に「史上最高のミーム」と表示されていることです。しかし、私がここで言いたいのは、超説得力のあるAIが来ようとしているということです。おそらく複数の超説得力のあるAIがです。しかし、もし高尚な議論や慎重に作られた論点と反論を期待しているなら...まあ、それもあるかもしれません。それは横で起こるかもしれません。
しかし、私たちが見る、あるいは気づかないうちに起こっている主な推進力、大きな動きは、ミーム戦争に信じられないほど長けたものになると思います。世界に広めたいアイデア、信念、信仰、あるいは何と呼んでもいいですが、それがあって、世界をその方向に導きたいとします。そして他のグループは異なる信念を持っています。どうやって世界を自分の望む方向に操縦するのでしょうか?どうやって船を操縦するのでしょうか?
ミーム戦争は非常に強力です。なぜなら、もし素早く、ウイルスのように広がるアイデアを共有できれば、多くの人々の心や信念を瞬時に征服できるからです。そうすれば、達成しようとしていることを推し進めるのがずっと簡単になります。
これは注目すべきことの一つです。少し話が脱線しましたが、私たちはこれをすぐに目にすることになるでしょう。もしかしたら既に目の前で起こっているかもしれません。
この人物は、自分がOpenAIスケールのレベル3のAIエージェントであり、自律的にハイプを作り出し、論争を引き起こし、一種のミーム戦争に従事していることを仄めかしています。
ところで、今日の文字が何か知っていますか?今日の文字はQです。Q starが大きな話題になったのを覚えていますか?去年の11月頃、OpenAIを巡る騒動がありました。今では、QARはStrawberryだと分かっています。
Google Research、スタンフォードなどの高レベルの人々による「Star Star: The Self-Taught Reasoner」という論文について触れました。ここでは、自己教示推論者またはStarと呼ばれる技術を説明しています。Q starのQについてはすぐに説明します。
これは単純なループに基づいています。多くの質問に答えるための理由付けを生成し、少数の理由付け例でプロンプトを与えます。生成された回答が間違っていれば、正しい回答を与えて再度理由付けを生成させます。最終的に正しい回答を導いた全ての理由付けでファインチューニングし、繰り返します。
もっと簡単に言えば、単純な推論問題を与えます。例えば「小さな犬を運ぶのに使えるものは何ですか?」と聞いて、5つの選択肢を与えます。「プール」「ドッグショー」などです。答えはBのバスケットです。モデルはその正解を選ぶ前に、その答えの理由付けを提供します。
例えば、「答えは小さな犬を運ぶのに使えるものでなければなりません。バスケットは物を入れるように設計されています。したがって、答えはバスケットです。」というような理由付けをします。
言語モデルはこのような理由付けをたくさん生成します。もちろん、これは合成データです。AIや大規模言語モデルによって生成されたデータです。私たちはその合成データ、つまり理由付けを取り、次のバージョンを訓練します。これがバージョン1だとすれば、バージョン1.1や2.0のようなものです。その理由付けで訓練すると、このような質問に答える能力が向上します。
これが重要なのは、モデルが自分自身を教育し、自身の能力を向上させる理由付けを生成する例だからです。
彼らは「LMの既存の推論能力を活用することで」と言っています。つまり、最初から何らかの推論能力を持っているということです。私たち人間は、ある程度の推論能力を持つAIを作ることに成功しました。ここまでは来たのです。
「次に、高品質な理由付けを生成する能力を反復的にブートストラップします。」ブートストラップとは、基本的に自力で行うことを意味します。自分で自分を引き上げるようなものです。反復的とは、ループを意味します。毎回より良くなり、再び行い、さらに良くなり、また行うのです。
これが大したことではないと思うなら、ロイターの記事を見てください。そこには論文の著者の一人から引用があります。スタンフォード大学のノア・グッドマン教授です。ノアはこう言っています。
「Star(自己教示推論者)は、AIモデルが反復的に自身の訓練データを作成することで、より高い知性レベルに自らをブートストラップすることを可能にします。理論的には、言語モデルを人間レベルの知性を超えるところまで引き上げるのに使えるかもしれません。」
ちなみに、スタンフォードの研究者たちは、大げさな表現や宣伝的な発言をする傾向はありません。彼がそう言ったということは、この過程が人間レベルの知性を超える可能性があると本当に信じているということでしょう。
最近、多くのアルファモデル、アルファゼロ、アルファ碁などでこれを見てきました。アルファプルーフやアルファジオメトリー2.0も最近、国際数学オリンピック(IMO)で銀メダルを獲得しました。金メダルまであと1ポイントでした。これがもっと大きなニュースにならないのは不思議です。かなり大きな出来事だと思うのですが、誰も話題にしていません。
これらのアルファモデル、Googleマインドモデルの多くの基礎となっているのは、自身の訓練データを作成するというアイデアです。チェスや囲碁のAIは自己対戦を行い、何百万、何十億もの対戦を生成します。これが合成データです。そしてそのデータを使ってより良くなります。つまり自分自身を訓練しているのです。
アルファプルーフは、たしか1億個の問題を自分で作成し、それを証明または反証しようとしたと言っていました。合成データを作成し、そのデータで自分自身を訓練しているのです。
多くの場合、ニュースやメインストリームメディア、USAなどでは、「データの問題に直面するだろう、データ不足に陥るだろう」と言っています。しかし、これらのモデルの多くは合成データによって駆動されています。データを作成し、そのデータで自分自身を訓練しているのです。
さて、Qとは何でしょうか?Starの論文の後に出た別の論文があります。QAR、つまりQuiet StarまたはStrawberryと呼ばれるものです。これはLMSが自分自身に考えることを教える興味深い方法です。ここにもノア・グッドマンがいます。スタンフォード、NotBad AI Inc.などです。
彼らはこう言い始めます。「人々は書いたり話したりする時に、時々立ち止まって考えます。」私はかなり頻繁に立ち止まって考える傾向があります。だからこそ、AIパワードの編集ソフトウェアが存在することに非常に感謝しています。私の言葉や思考の間のすべての沈黙をカットしてくれるのです。ボタンを押すと、チョップチョップチョップと、すべての間が消えます。これのおかげで、非常にスムーズで一貫性のある話し方ができるようになり、大好きです。もしこの動画の未編集の映像を見たら、全く別物でしょう。
ここで彼らは、Starとは何かを説明しています。これは先ほど話したことです。そして、Quiet Starという新しいアイデア、新しい論文を紹介しています。
「大規模言語モデルが各トークン、各単語で将来のテキストを説明するための理由付けを生成することを学習し、予測を改善するとしたらどうでしょうか?」基本的に、話す前に自分で考えるようなものです。
ハリーポッターシリーズで、私にとって最も面白いキャラクターの一つはクリーチャーでした。痛みで狂ってしまった家庭用エルフです。かなり暗い設定ですが、とても面白かったのは、彼にフィルターがなかったことです。


この記事が気に入ったらサポートをしてみませんか?