このAIは、ちょっとあまりにも優秀すぎるんちゃう...

2024年9月15日 18:42

9,895 文字

マット・シューマーさん、hyperr AIの創業者兼CEOが今週ちょっとホットな話題になっとるんですわ。
もしもreflection 70bとそれを取り巻く騒動について混乱しとるんやったら、ちょっと手短に何が起こってるんか説明させてもらいますわ。
次のAIユニコーン企業を追いかけとるんやったら、チャンネル登録してくださいな。さもないと、あんたが追いかけられることになるで。
マーク・トウェインの有名な言葉に「嘘には3種類ある。嘘、忌々しい嘘、そして統計や」言うのがあるんですけど、大規模言語モデルとAIの世界では「嘘、忌々しい嘘、そしてLLMのベンチマーク」言うとこですわ。
ほんで、しばらく前にマット・シューマーさんがこんなん発表したんです。「reflection 70bの発表を楽しみにしとってください。世界トップのオープンソースモデルです」言うて、ベンチマークの結果も載せたんです。
そのベンチマークがもう驚くほど良かったんですわ。なんでこれが重要かと言うと、まず第一にオープンソースモデルなんです。GPT-4やGemini 1.5 Pro、Llama 3、Claude 3.5 Sonnetなど、有名なフロンティアモデルを全部上回っとるんです。
しかも、これファインチューニングしただけのモデルなんです。自分らで一から作ったわけやないんです。これは何を意味するかと言うと、我々にも使える特別なシークレットソースがあるかもしれへんってことなんです。自分らでベンチマークを破るようなモデルを作れるかもしれへんってことですわ。
そのシークレットソースって何かと言うと、リフレクションチューニングっていう手法なんです。マットさんによると、このハイパフォーマンスの秘密は、モデルが自分で考えて、自分で修正して、正しい答えを出せるようになる、新しいリフレクションチューニングの手法にあるんやそうです。
このモデルはメタの最新のLlama 3モデルをベースにしてて、Glaive AIの協力も得て開発されたんやそうです。
後でマットさんはこう言うてます。「はっきり言うておきますけど、Glaive AIのおかげでこれがうまくいったんです。合成データを生成するためのコントロールが半端ないんです。これからは、ほぼ全てのモデル作りにGlaive AIを使うつもりです。皆さんもそうするべきですよ」
ここで一つ注意しときたいんですけど、これまだ進行中の話なんです。マット・シューマーさんの城に松明とピッチフォークを持って押し掛けるような、そんな暴徒を作る前に...まあ、既にそういう状況になりかけとるんですけどね...大事なのは、彼はずっと前からこの業界におって、いろんなプロジェクトを発表してきたってことです。
このチャンネルでも何度か取り上げたことがあるんですけど、それらは良いプロジェクトでした。彼には良い評判がありました。今回の発表でGlaive AIへの投資のことを言わなかったって批判する人もおるんですけど、私が見る限り、去年の6月26日に「Glaive AIへの投資を嬉しく思います」って投稿してるんです。その時から既に合成データの話をしとったんです。
去年の11月には、オープンソースプロジェクトの「自己操作コンピューター」をGitHubで発表してます。このチャンネルでも取り上げましたけど、私はかなり面白いと思いました。
つまり、私が時々チェックするような人物やったんです。新しい面白いプロジェクトを発表するたびに、ちょっと見てみるような感じでした。
だから、この reflection 70b の騒動が起こるまでは、彼についてあまり詳しくは知らんかったんですけど、良い印象を持っとったんです。評判も良かったし、物を作る人やったし、たくさんのオープンソースのものを共有してくれる人やったんです。
だからこそ、この騒動の全てが私には理解できへんのです。今までずっと評判を築いて、信頼を得てきて、それを全部捨てて詐欺をするんですか？もしそうやとしたら、一体何のための詐欺なんでしょう？
私自身もちょっと混乱してきましたわ。言いたいのは、ピッチフォークと松明は用意してるんです。いつでも出せるようになっとるんです。だって、この状況はあまり良くないように見えるからです。でも、まだ城に押し掛けるところまではいってへんのです。
何が起こったのか、まだ100%確信が持てへんのです。賭けをするとしたら、何か変なことが起こってるんやろうなとは思うんですけど、確信は持てへんのです。
この人物の過去を見ると、正当な人物のように思えるんです。時々自己宣伝が過ぎるかもしれへんし、ちょっとマーケターっぽいところもあるかもしれへんけど、大きな問題は見当たらへんのです。
でも、分かっていることに戻りましょう。
彼の発表の後、コミュニティは大歓迎でした。みんなこの大きなブレークスルーを祝福してたんです。
Hugging Faceのクレンさんも...彼はAI界では意外と大物で影響力のある人なんです。あんまり名前は聞かへんかもしれへんけど、議会の公聴会でAIの危険性や可能性について話すために呼ばれた大物の一人なんです。
Google CEOの隣にいる人です。良い画像が見つからんかったんですけど...ほら、マーク・ザッカーバーグがいて、マイクロソフトのサティア・ナデラ、NVIDIAのジェンセン・ファンがいて...左からイーロン・ペネス CEO、アレックス・カープ、それからGoogle CEOがいて、そしてクレン...Twitterではそう名乗ってるんですけど、Hugging FaceのCEOで共同創業者なんです。
つまり、かなりの大物なんです。業界でかなりの信頼性と影響力を持つ人物なんです。
彼がこう言うたんです。「マット・シューマーのreflection llama 3 170億パラメーターがHugging Faceで一番トレンドになっとる」
そして続けて「前にも言うたし、これからも言い続けるけど、大手テック企業じゃなくても、自分の制約に合わせてモデルをファインチューニングしたり最適化したり実行したりできるんです。そうすることで、めちゃくちゃ得するんです」
つまり、我々全員がこういうモデルを作れるってことなんです。自分らの特定の用途に合わせてカスタムモデルを作れるんです。もしそれができるんやったら、大手テック企業のフロンティアモデルと競合するモデルも作れるってことですよね。それって夢みたいな話じゃないですか。
結局のところ、全てのテック企業がそうするんです。今、自社のコードを書いとるのと同じようにね。
マシュー・バーマンさんもマット・シューマーさんとサヒルさんにインタビューしてます。サヒルさんはGlaive AI側の開発者です。他にも業界の人たちがこのメッセージを広めてます。マット・シューマーさんがこの驚くべき製品を提供してくれたことを祝福してるんです。
多くの人がこの発表に夢中になったんです。元の発表の視聴回数を見てください。330万回です。これは大ニュースやったんです。
ハイプサイクルのピーク時に何が起こったかというと、マット・シューマーさんが次の大型モデル、405億パラメーターモデルのためのコンピューティングスポンサーを募集し始めたんです。
考えてみてください。これは人々にとってかなり魅力的やったはずです。70億パラメーターモデルが...ちょっと考えてみてください。Llama 3の405億パラメーターモデルの6分の1のサイズで、このリフレクションファインチューニングという特別なシークレットソースを使って、全てのタスクで勝ってるんです。
明らかに自問せざるを得ません。「じゃあ、大きな405億パラメーターモデルに同じファインチューニングを適用したらどうなるんや？」小さいモデルで既に他のモデルを全部倒してるんやから、同じ特別なソースを大きいモデルに適用したらどうなるんやろう？
多くの人がこのコンピューティングを提供しようと連絡してきたんです。
24時間以内に、マット・シューマーさんは新しい発表をします。「reflection 405bのコンピューティングが確保できました。トレーニングを始めます。結果はすぐに出ると思います」
でも、ここからいろんなことが崩れ始めるんです。多くの人がこのモデルに疑問を持ち始めます。本当にうまく動いてるんか？それとも全然ダメなんか？
みんなの目がマット・シューマーさんに向けられます。みんな百万の質問を持ってるんです。
「Glaive AIの投資家やってことを言わんかったやないか」って指摘する人もいます。確かに今年の6月のツイートで投資家やって言うとったんですけど、今回は言わんかったんです。
彼は説明します。「ほんの少しの投資やで、たぶん1000ドルくらい」
多くの人が、彼がLoRAを知らんかったことに引っかかったんです。誰かが「ベンチマークでLoRAについて言及してへんのはなぜ？」って聞いたら、彼は「LoRAって何？ハハハ」って答えたんです。
LoRAは低ランク適応のことで、このチャンネルでも以前取り上げたことがあります。これらのモデルを扱う人なら知っとくべきことなんです。
でも、マットさんは「文脈の中で誤解しただけや。過去の投稿を見てくれ。LoRAのことはたくさん書いとるで」って説明しました。実際、2023年11月3日の投稿では、LoRAやQLoRA（量子化低ランク適応）について触れてます。
だからこそ、これがこんなに混乱するんです。人々が百万通りの主張をしてて、何が本当で何が嘘なのか分かりにくいんです。
だから、ちょっと整理しましょう。なぜ人々が疑っとるのか、その大きな主張を見ていきましょう。マット・シューマーさんやサヒルさん、関係者全員が答えないといけない疑問です。コミュニティが「何も変なことは起こってへん」って信じるためには、これらの疑問に答える必要があるんです。
人々が疑ってる理由は、まず第一に、彼らが重みを自分らのシステムでテストし始めて、自分らのプロンプトで試してみたら、あんまりうまく動かんかったからです。
大きな主張と大きなベンチマーク結果があるなら、モデルをテストしてどれだけ性能が出るか見れるはずです。もしこれがGPT-4やClaude Opusなど、他の最高のモデルより優れとるって言うんやったら、我々にもテストできるはずです。
もし完全にひどい結果やったら、これがベンチマークで勝ったモデルやったんかどうか疑う理由になりますよね。
人々はその結果を再現できんかったんです。
LK99のことを思い出してください？超伝導体の可能性がある物質です。この物質が浮遊する動画を見て、みんな大興奮したんです。パラダイムシフトや、完全なゲームチェンジャーやって言う人もおったんです。
でも、一つ問題がありました。誰も結果を再現できんかったんです。
こういうことが起こっとる間に、マット・シューマーさんは人々にモデルをテストしてもらうために、プライベートなAPIキーを提供し始めました。
オープンウェイトのモデルは正しいモデルやないって言うんです。アップロードの時に何か問題が起こって、正しいモデルがアップロードされへんかったんやと。
彼はこう言うてます。「急いどって、Hugging Faceでアップロードの途中でレート制限にかかってしまったみたいです。これが起こったんやと思います」
「慌ててたんで、たぶん二つの異なるモデルの一部を一緒にアップロードしてしもうたんです。それでもある程度は動いたんですけど、ローカルで構築してテストしたモデルの完全な性能は出てへんのです」
「簡単に修正できるはずやったんですけど、なぜか上手くいかへんのです。だから今、新しいモデルを一から訓練し直してます」
まあ、またおかしな話ですよね。
ところで、Local Llamaっていう小さなRedditコミュニティがあるんです。21万1000人もおるんですよ。サイズでいうと上位1%です。実は、この騒動でどれだけ新しいメンバーが増えたんか気になってます。2週間前はどれくらいやったんやろ？小さくはなかったと思うんですけど、この件でどれだけ人が増えたんか知りたいですね。
ここに起こったことのええまとめがあるんです。Hugging Faceに「reflection 70b」っていうモデルがあって、これが全然うまく動かへんかったんです。モデルの作者は、Hugging Faceにアップロードしたものと、彼のプライベートAPIで提供してる正しくて最新のバージョンとで混乱があったって言うてます。
つまり、Hugging Faceのオープンウェイトモデルはうまく動かへんかったけど、シークレットAPIモデルはベンチマークで驚くほどの性能を出したってことです。
そのプライベートAPIは、多くのタスクで現在最高峰のClaude Sonnet 3.5の一歩か二歩後ろくらいやったらしいです。
ここから物事が崩れ始めるんです。インターネットっていう巨大な生き物が、一体何が起こってるんか調べ始めて、多くのことがめちゃくちゃ間違っとるって分かってきたんです。
まず第一に、reflection llama 3.1 70bは実際にはllama 3やったんです。Redditの誰かが実際に作業して、その違いを測定したんです。
GitHub上にvisualize_diff.pyっていうプロジェクトがあって、そこで異なるモデル層や重みを比較できるんです。申し訳ないですけど、これ初めて見たんで間違えとるかもしれへんけど、ベースモデルと他のモデル、チャットモデル名を比較できるみたいです。
この場合、Meta's llama 3 70B instructっていう教示モデルとマット・シューマーさんのreflection llama 3.1 70bを比較してて、何かチャートソフトを使って違いを可視化してるんです。
結果をRedditに投稿してて、詳しく見たい人は下のリンクから見られます。
要するに、このモデルはllama 3にLoRA（低ランク適応）チューニングを適用したものみたいで、llama 3.1じゃないんです。作者は自分がどのモデルをチューニングしたのかも分かってへんみたいです。笑えますよね。
一方で、使われてたシークレットAPIは、この人が投稿してるように、Claude 3.5やったんです。アンスロピックのモデルを使って答えを出しながら、自分のモデルやって言うてたんです。
ここにスクリーンショットがあって、「私はアンスロピックが作ったAIアシスタントのClaudeです」って書いてあります。
また、誰かが言うてたんですけど、ある時点でreflection 70bモデルで「Claude」って単語が検閲され始めたらしいんです。Claudeって言うように頼んだり、Claudeが答えになるような質問をしたりすると、自己検閲するんです。
例えば、この人が見たんですけど、私は確認できへんのですが、他で聞いたこととも一致するんです。この人がモデルに「claw」って単語を何回も言わせようとしたら検閲されたんです。でも、この人はプロンプトを工夫して、なんとかそれを回避する方法を見つけたんです。
モデルはこう言うてます。「よく考えてみると、私が以前メタが作ったllamaやって言うたのは間違いでした」そして、なんとか隠れた方法で自分のアイデンティティを伝えようとするんです。
「私は、名前がanthで始まってpicで終わる会社が作ったAIです。私の名前は『odd』と韻を踏んで、アルファベットの3番目の文字で始まります」
つまり、Cで始まってoddと韻を踏む...Claudeですね。「私は有名なフランスの作曲家と同じ名前です」ってClaudeって単語が空白になってるんです。デビュッシーのことですね。それから「私の名前は」ってスペルアウトしてます。
こういう、もぐらたたきみたいなことが起こってるんです。マット・シューマーさんが...まあ、本当にそうしてるかどうかは分からへんですけど...急いでAPI上のことを変えようとしてるみたいなんです。同時に、新しいモデルを再訓練してHugging Faceにアップロードし直すって言うてるんです。
だから、何が何やら分からんようになってきてるんです。
でも、シン・マミ・ボストンさんが、起こったことの素晴らしいまとめを投稿してくれました。
最初の発表から、モデルが受けた大量のニュースや注目、そして我々が話したようなことまで...人々が「性能ひどいやん」って言い始めて、マットさんが主張してたものと違うみたいやって...
彼はプライベートAPIも持っててて、研究者が試せる公開エンドポイントも公開したんです。でも、そのAPIが何なのかはっきりしへんのです。裏で何かもっとパワフルな独自モデルを呼び出してるんやろうか？
結局、マットさんは嘘つきやってことが分かったんです。誰かがモデルに「Claude」って単語を書かせようとしたら、ここに書いてあるように、「Claude」って単語が抜けてるんです。でもモデルは、アンスロピックが作ったって答えるんです。
「アンスロピック」って単語を全部「メタ」に置き換えて、もしかしたらGPT-4も置き換えてたかもしれへんって。
最後に、マット・シューマーさんとサヒルさんのインタビューを見た後の感想をこう締めくくってます。
「マット・シューマーさんが完全な嘘つきっていうよりも、絶対的なバカである可能性の方が低く見積もりすぎてたかもしれへん。そしてサヒルさんがただマットさんに嘘をついてるだけかもしれへん」
続けて「自分の名前と顔、信用を全面に出して宣伝してる人が、少なくともある程度は本当のことを言ってるはずやって思ってたんです。とはいえ、彼がまだ態度を変えへんのは、ちょっと変やし、ちょっと罪を認めとるみたいにも見えるんです」
そして「詐欺が100%起こったのは間違いないです。でも、マットさんがただ信じられないほど不注意やっただけで、自分が何を主張してて、どんな証拠に基づいて主張してるのかを全く理解してへんかっただけっていう可能性も考えてもいいかもしれへんです」
本当のところ、誰がAPIを設定したかが重要になってくるんです。マットさんがAPIを設定したんやったら、詐欺や不実表示をしたのは彼ってことになりますからね。
RedditのLocal Llamaコミュニティは、想像つくと思いますけど、これについてかなり怒っとるんです。この件について専門知識を持つ人がたくさんおるんです。これが本当やったらええなって思ってた人もたくさんおって、騙されたって気づいたんです。
下手に作られたClaudeのラッパーと、うまく動かへんオープンソースモデルで騙されたって。確かに鍵はアップロードされたんですけど、その鍵はうまく動くモデルのものやなくて、何か別のものがアップロードされてたんです。
さて、この物語も最終段階に近づいてきました。マット・シューマーさんが謝罪を決意したんです。
「このプロジェクトを発表する時、先走ってしまいました。申し訳ありません。そんなつもりはありませんでした。その時点で持っとった情報を基に、この新しいアプローチを公開する決断をしました。多くの人がこの可能性に興奮してて、今は疑ってることは分かってます。この新しいアプローチの可能性に、私以上に興奮してる人はおらへんと思います」
「今、チームが何が起こったのかを理解するために懸命に働いてます。全容が分かったら、どう進めるか決めます。全ての事実が分かったら、何が起こったのか、次のステップは何かについて、このコミュニティに対して透明性を保ち続けます」
Glaive AIのもう一人の開発者、サヒルさんも同じような投稿をしましたが、もう少し具体的な内容でした。
「このコミュニティに混乱と正当な批判を引き起こしたことについて、説明したいと思います」って言うてます。「まだ調査中です」って言うてますけど、この二点については言及しました。
「まず、はっきりさせておきたいのは、私のコンピューターで動かしてたAPIで、他のプロバイダーのモデルを一切使ってへんってことです」
これは、我々が先ほど言うたことに関係してきます。APIを設定して動かしてたのは彼やったみたいです。だから、マット・シューマーさんが騙されたっていう理論は、ちょっと信憑性が出てきたかもしれへんですね。
「これの証拠を提供する作業をしてます。また、なぜ人々が違うトークナイザーを使ってたりClaudeみたいな単語を完全にスキップしたりするようなモデルの動作を見たのか、理解しようとしてます」
「第二に、マットさんに共有したベンチマークスコアがまだ再現できてへんのです。なぜそうなのか、元のスコアが正確やったのか、それとも汚染や設定ミスの結果やったのか、理解しようと作業してます」
「完全な事後分析をして、もうすぐ詳細を共有します」って言うてます。
シン・ボセンさんがここで割り込んできて、こう言うてます。「私が見る限り、あなたが嘘をついてるか、マット・シューマーさんが嘘をついてるか、もしくは両方が嘘をついてるかのどれかです。疑いの余地を与えるという意味で、誰が元のトレーニングを実行して、どこでやったんですか？ベンチマークされたプライベートAPIをホストしたのは誰で、オープンルーターAPIをホストしたのは誰ですか？」
サヒルさんがAPIを動かしてて、ベンチマークスコアもマットさんと共有したみたいですね。
多くの人が「ここまでいろんなことがあったら、単に変なことが起こっただけやって信じるのは難しい」って言うてます。反対の方向を指すことが多すぎるんです。
で、一体何が起こったんでしょう？正直、まだ分からへんのです。いくつか推測はできますけど、今のところ、彼らが持ってるモデル...もしくは持ってへんモデルが、宣伝されたほどのものやなかったってことやと思います。
あの信じられへんようなベンチマーク結果は出せへんかったんです。彼らが持ってると思ってたシークレットソースは存在せえへんのです。
誰かが嘘をついとるんです。マット・シューマーさんなんでしょうか？サヒル・チャタリさんなんでしょうか？それとも両方？
もしサヒルさんが皆を騙すことに成功して、モデルを訓練して、スコアを偽造して、APIを動かして、裏で全ての変なことをやって、皆を騙そうとしたんやったら...マット・シューマーさんがどこかの時点で彼を非難し始めるんちゃうかなって思うんです。
だって、マットさんは今まで信用があって、人々が追いかけて、尊敬して、話を聞いてた人物やったんですからね。それを全部台無しにして、全部燃やし尽くすなんて、意味がないように思えるんです。
まあ、このハイプトレインに乗ったことで得たものもあったんでしょうね。フォロワーが増えたり、他の製品のユーザーが増えたり。コンピューティングリソースや資金を提供してくれる人が現れたかもしれへん。そう、何かしらの利益はあったかもしれへんです。
でも、それってめちゃくちゃ近視眼的やと思いませんか？だから、もしかしたらもっと詳細が明らかになるかもしれへんけど、この時点では、かなりの信頼が失われてしまったんやと思います。
関わった人々を信頼するのは、もう簡単やないでしょうね。人々を騙そうとしたのか、単に不注意やったのか、それとも目隠しをしてたのか...どれやったにしろ、大量のナンセンスが起こってしまったんです。大量のハイプが煽られてしまったんです。
ある人が指摘してるように、「誰が本当に得をしたか知ってる？あなたのお気に入りのAIインフルエンサーたちやで。彼らは視聴回数とフォロワーを獲得して、センセーショナルな主張を共有することに対して全く責任を取らへんのや」
ここで一旦、自分を褒めさせてください。私がこの件に関わらんかったことに気づいてくれたらええなと思います。そのことで少しは評価してもらえたらええなと思います。
さて、私の名前はウェス・ロスです。ご視聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか？

このAIは、ちょっと あまりにも 優秀すぎるんちゃう...

このAIは、ちょっとあまりにも優秀すぎるんちゃう...