中国のAI企業であるSenseTimeが、SenseNova 5.0という新しいAIモデルを発表しました。このモデルは、ほぼすべてのベンチマークにおいてOpenAIのGPT-4 Turboを上回る性能を示しています。一方、AnthropicのClaude 3 Opusは、一部のベンチマークではSenseNova 5.0を上回っていますが、その差は僅かです。SenseNova 5.0は、画像生成においても優れた性能を示しており、ニュアンスのある写実的な肖像画を生成することができます。また、SenseTimeは18億パラメータの小型モデルであるSenseChat Lightを発表し、同規模の他社モデルを大幅に上回る性能を実現しました。
公開日:2024年4月26日
※動画を再生してから読むのがオススメです。
およそ2日前、かなり興味深い展開がありました。
中国には皆さんが認識しておくべきことがあります。それはAI競争のダイナミクスを変えるものであり、現在、中国がAIの開発において世界の他の国々に追いつこうとしていると私は考えています。
最近では、アメリカが最先端のモデルをリードしてきたようですが、最近はこれが最も興味深いものです。
中国がこれまでに何をしてきたのか、そしてこの発表が何なのかを見てみましょう。
基本的に、ここでの状況は、中国が新しいモデルでリードを取った可能性があるということです。
2日前、SenseTimeがSenseNova 5.0を発表しました。この報告によると、ほとんどすべてのベンチマークでGPT-4を上回っているとのことで、実際に驚くべき異なる点がいくつかあります。
これはただのGPT-4の宣伝ではありません。
主張が真実であれば、そしてそれについて詳しく調べていくと、事態は本当に本当に加速していることを意味し、異なる国々や地域から、AIシステムがどれだけのことができるかに関して、競争がますます激しくなることが見込まれます。
ここでは、彼らがこれをGPT-4 Turboと比較していることがわかりますが、このプレゼンテーションが掘り下げていることがたくさんあります。そして、これの大部分は中国語であり、私ができる限り翻訳しましたので、何が起こっているのかを完全に理解できるようにしています。
ここで見ると、彼らのSenseNova 5.0は実際にかなりまともに見えます。
左側には、ハイブリッド使用であることが記載されており、中央には1,000億以上のトークンでトレーニングされていると述べられています。
推論は実際に最大20万トークンまでサポートしており、これは興味深いことです。長いコンテキストウィンドウが見られる中、20万のコンテキストウィンドウは驚くべきことではないと言えますが、もちろん事が順調であることを示しており、もちろんこの主な主張は、性能がGPT-4 Turboを上回っているということです。
皆さんご存知の通り、なぜGPT-4 Turboが当時の最先端モデルとして高く評価されているか、そしてそれがベンチマークの観点で常に常に常に上回ろうとする理由です。
これがプレゼンテーションの始まりでしたが、事はさらに興味深くなり、皆さんにそれが具体的に何であるかを示します。
ここに1つのスクリーンショットがあり、AIシステムが実際にゲームに接続されているかどうかは完全にはわかりませんが、テキストには、モデルとGPT-4の複数の機能の比較がライブデモンストレーションで行われ、創造的な執筆、論理的推論、図表、画像理解、写真に基づく食品カロリーの計算などが含まれていると記載されています。これがここに実際に記載されているテキストですが、ベンチマークに入りますが、完全な透明性のためにこれを含めたかっただけです。
より大きなモデルの力を見せるために、Sense Timeはキング・オブ・ファイターズをプレイしました。最初は、緑のプレイヤーであるGPT-4がわずかに優位でしたが、すぐに赤いプレイヤーであるSense Chatの様々なコンボに圧倒されました。
彼らが実際にこれをシステムがGPT-4を打ち負かすというメタファーとして話しているのか、それともStreet Fighterスタイルのゲームに接続してSense Chat LiteがGPT-4を上回ったのか、私はよくわかりません。
もしこれをより効果的に翻訳できる方がいれば、正直に言って、私は複数の異なるAIシステムを通した結果が頻繁に同じだったので。
ここからが興味深くなります。そして、ここが本当に本当に魅力的な部分です。なぜなら、これらは明らかにこのシステムの基準です。
右側にSense Chatバージョン5があります、これがSense Chatバージョン5です。
そしてもちろん、実際に行っていることについては、ここに注意してください、なぜなら私がいくつか言うことがあるので、それらを思い出すことができます。実際には、これをGPT-4 Turboと比較していることがわかります。それは実際には、鷲の目の視聴者にとっては1106です。
これは実際には最新のものではありませんが、最も古いものでもありません。そして、私たちのモデルSense Chatバージョン5を上回る唯一のベンチマークは、もちろん、ここにある数学のゼロショックベンチマークです。そして、このベンチマークでも、61%の領域にハイライトされていることがわかります。
基本的には、現在私たちが見ているのは、GPT-4 Turboと比較して、最新のモデルの1つであるベンチマーク全体にわたる状況です。
なぜ彼らが最新のものをしなかったのかはわかりませんが、おそらく彼らのテストの進行状況に基づいていると思われます。そしてもちろん、LLaMA 3 70億パラメータの指示との比較があります。
GPT-4との違いは、正直言って、かなり目立つとは言えませんが、単なるパーセンテージの増加ではないようです。
たとえば、MMLUでは、これはかなり小さいですが、CMMUでは、これはMMLUの異なるバージョンであると思われます、おそらく中国のMMLUです。
正直言って、私は完全にはわかりません。
増加していることがわかりますが、私が言ったように、異なるベンチマークでは、得られる利益が完全に段階的ではないようです。実際に違いを見ると、これは80で、これは93.61です。
ここで見ているのは、そしてもちろん、これらのベンチマークのいくつかはすべてGPT-4上にはありません。
他のモデルを実際にチェックしていたとき、他のモデルではレースのようなものや自然な質問のようなものが見つからなかったのですが、Gemini ProやClaudeのようなものです。
実際にそれらと比較テストを行っており、そのことについて後でビデオで説明します。
基本的に、中国がGPT-4 Turboを超えたと思うのはかなり興味深いと思います。
このモデルから見たいのは、正直言って、人々がこのモデルをテストできる可能性があるかどうかです。ユーザーの観点で実際にどのように比較されるかを見るのは興味深いと思います。
そして、これは、このチャート上で、現在見ているのは、GPT-4がいくつかの異なるカテゴリーで2つしか勝っていないということです。
LLaMA 3でも、かなり重要な異なる基準があることはわかっています。
そして、私が最も興味深いと考える基準は、ベンチマークを実際に微調整して、単にベンチマークで勝つものを得ようとするだけでなく、実際に日常的に役立つものを得ようとするインスタンスに基づいているということです。
ここでは、以前に述べたように、チャットボットアリーナにGPT-4 1106があることがわかります。
お話し相手のエリアは異なりますが、それは他のシステムに対する投票によって決定されるエリアエロに基づいてモデルをランク付けしています。
基本的に、これは人々がAIシステムを並べてテストし、そのシステムが最も有用とされると人々が投票すると、そのエロは増加します。
そして、これはブラインドテストなので、どのシステムがどれかはわかりません。
そして、時間の経過とともに、他のシステムを見るバイアスなしで、さまざまな質問に答える日常的に実際に有用なシステムを見ることができます。
私は非常に有用だと思うものであり、GPT-4 1106が実質的に第1位にランクされていることがわかります。
そしてもちろん、私が言ったように、新しいものは若干高いエロレーティングを持っていますが、それでも私はこれが私たちがここで見ているものにとってかなり印象的だと思います。
私が試したかったもう一つのことは、他のモデルと比較してみたかったということでした。これを見て気づいたことの一つは、これは良いとしても、他にも最先端のシステムがあるということでした。
そうです、GPT-4 Turbo 1106は最先端ですが、GPT-4 Turboだけではありません。
GPT-3 TurboやLLaMA 3 70億パラメータもそこにあるだけではありません。
ほとんどの人が考えているかもしれない他の1つ、あるいはあなたが考えていないかもしれませんが、私は確かに考えているのは、Claude 3のことです。
Claude 3、わからない場合は、それはモデルであり、最先端のモデルであり、アントロピックによってリリースされました。
私は少し雑にやってしまいましたが、現在見ているものを説明させてください。
見ているのはClaude 3のベンチマークだけで、このタブでGPT-4と比較されていることがわかります。
基本的に、全体的に、Claude 3のOpusモデルはGPT-4のベンチマークを上回っています。
ここで意味するのは、実際には、Claude 3がどれだけ優れているかについて、これらの領域を囲んでいますが、ここにxを追加しました。これは、sense chat v5が実際にClaudeOpusを上回る領域です。
数学のベンチマークでは、数学問題の解決において、ClaudeOpusよりも優れています。
ここでは61.9、こちらは60.1です。
それがsense chat v5が最高であるところです。
そして、もちろん、ここで一般常識の知識、heliswag、これは95.4%で、ここで一般常識のheliswag、彼らの方は実際に97%です。
これは実際には大きな改善です。
我々は、95.4%から97.52%が大幅に改善されたことが分かります。
ただし、Claudeは実際には、MMLU、大学院レベルの推論、小学校の数学など、これらの分野でリーダーシップの基準を維持しています。
ただし、はい、Claude 3はこれらの基準で最も優れていると言わざるを得ませんが、正直に述べると、それほど大差はありません。
例えば、人間の評価コードが84.9%であることを見ると、また、例えば、ビッグベンチハードを見ると、現在82.98%であり、一方、ビッグベンチハードでは86.8%です。
これらの違いを見るのはかなり興味深いと思いますが、要するに、Gentschat v5はGPT-4 Turboを凌駕し、Claude 3 OpusはGPT-4 Turboを凌駕しますが、実際のベンチマーク、つまり競技場によると重要なベンチマークは、GPT-4 Turboの最新バージョンがリーダーシップの地位を維持していることです。数学やコーディングなどのベンチマークは正しくないようですが、気にする必要があるベンチマークです。
人々はGPT-4 Turboで楽しんでいるようですが、しっかりとClaude 3 Opusが続いています。
そして、GoogleのGemini1.5 ProがAPIで登場します。
私は、これはまだかなり印象的だと思います。なぜなら、この会社は非常に静かに、そして非常に熱心にステルスで働いてきたようです。
なぜなら、これは人々を驚かせたことだからです。
実際には、他にも驚くべきことがいくつかあり、その中で最も驚くべきことの1つは、小さなモデルに関するものでした。
彼らの小さなモデルは狂っているので、実際にこれらのことのいくつかが本当に正当なものであるかどうか疑問に思っています。
彼らが実際に話していることの1つは、ライティングの課題であり、ここで彼らはGPT-4を比較しています。
ここで、GPT-4をGensChat v5と比較できます。
そしてここで、これが、面白いことに、実際にチャットボットの競技場のように見えるところです。
数日後に、実際にGensChat v5を競技場で見ることができるかどうか疑問に思っています。
しかし、彼らは実際にここで起こったことの要約として、基本的には、彼らは古典的な中国小説「紅楼夢」に基づいた革新に関する大学入学試験のエッセイを書くという課題を持っていたと話しています。
そして著者は、GPT-4の文章スタイルがより硬直して構造化され、繰り返しのフレーズを使用する傾向があると指摘しています。
対照的に、SenseNovaの5.0は、より自由な流れるような書き方を示し、古代から現代のインターネット時代までの幅広い中国の文化的および文学的な参照を活用しています。
要するに、彼らは基本的に、彼らが含めた例の中のライティング課題を見ると、GPT-4が負けると言おうとしています。
ここにもう1つありましたが、GPT-4のモデルをSenseChat v5と比較して、論理/推論のタスクを行ったところがありました。
そして、このモデルがコーヒーと水の消費量を計算しようとするときに何をするかを比較しようとしていました。
正直なところ、ここで何が起こっているのかを解読するのはかなり難しいです。前にも言ったように、これは翻訳です。
解釈は実際には正しくないかもしれません。
その詳細には立ち入らないつもりです。
しかし、要するに、GPT-4は実際に何が起こっているかを正確に理解できませんでした。
しかし、SenseChat v5は、推論ステップが正しい答えを提供しました。
プロンプトと説明は説明に記載しておきます。
しかし、論理的な推論タスクを正しく行うのは非常に混乱することです。
なぜなら、これらの非常に混乱するタスクの例を見たことがあれば、1つの単語が答えの全体的な結果を本当に変えることができるからです。
翻訳を100%正確にすることが重要です。99%だと、問題を完全に間違える可能性があります。
これは、ベンチマークの観点から見て、おそらくそのものの中で最も魅力的な部分です。
実際、それは実際には真実ではありません。
実際、それはもうすぐやってきます。
しかし、ここで、そして私たちはここで最も興味深い部分に取り組みます。
しかし、ここで、これは彼らの視覚認識システムを見ていく場所です。
もちろん、GoogleのGeminiプロビジョン、OpenAIのGPT-4 Vision、QuenのVR Max(ビジョンシステム)、そしてもちろん、インターン大規模言語モデル X Composer 2 VLとStep 1 Visionと比較されています。
これらすべての異なるものがこれらのベンチマークで比較されています。
ここで見てきた内容から、トップのものがそれらを上回っていることがわかります。
その中で私が見たもう一つのすごいことは、画像生成も行っていたことです。
そして見たところ、非常に写実的なようです。
基本的に、テキストによると、Sense 5.0はAIによる画像生成の新たな基準を設定し、微妙で写実的な肖像画を生成するという印象的なパフォーマンスを示しています。
次の例は、AIのテキスト画像ビジュアルの能力を示しています。
基本的に、プロンプトを使用して、美しいメイクをしたアジア系女性の肖像画が、自然な笑顔、自然な髪型、映画の品質で、異なる表情やスタイルを持つ、生き生きとしたものが作成されます。
Sense Nova 5.0は、テキストの記述の洗練された解釈と、微妙で豊かな映画品質の肖像画を持つ多様な表情やスタイルを生成する能力を披露しています。
その説明はかなり良いですが、率直に言わせてもらうと、これが彼らのテキストから画像を生成するモデルなら、Midjourneyがこのレベルにあるかもしれませんが、これは本当にとても良いものに見えます。
これが完全にリアルではないとは言えないという意味です。
そしてプロンプトに関しては、これは本当にうまくやっていると思います。
もちろん、これを他のシステムと比較したのだろうと思います。
ここでは実際、完全にははっきりしていませんが、おそらくこれらは他のシステムだと思います。
とにかく、この中の1つは非常にリアルに見えます。
そして、これはかなり印象的だと言わざるを得ません。
ここが最も興味深い部分について話す場所です。前にも言ったように、以前はそうするはずだったのですが、スライドが別のスライドだと思われていました。
基本的に、これは彼らが話す小さなモデル、さまざまなことに使用できるよりコンパクトなモデルについて話す場所です。
彼らが強調しているのは、サイズが1.8億パラメータであるSenseChat Lightです。
そして、同じサイズの他のものよりもはるかに優れています。
GoogleのGEMMA 20億パラメータと比較すると、完全に破壊しています。
LLaMA 2130億パラメータと比較すると、完全に優れています。
しかし、これから本当に理解できなかったことで、かなり混乱したのは、ベンチマークです。なぜなら、彼らは実際には従来のベンチマークでこれを行っていなかったからです。
おそらく、彼らは異なる種類のベンチマークでこれを行った。
この左列のテキストが実際に翻訳されたとき、私たちが得たベンチマークは、言うなれば、私たちが得た言葉は総合スコア、言語理解、創造性、推理、そして全体の平均でした。
ここでかなり驚くべきことの1つは、18億のパラメーターモデルが信じられないほどの能力を示していることです。何度も何度も、その傾向が増加しているのを見てきました。
ここで私が持つ1つの批判は、彼らがこれをMicrosoftのPhi 3と比較していないことです。
そして私はPhi 3が文字通りリリースされたばかりだと推測していますので、それは大丈夫だと思います。
しかし、彼らは実際にこれをLLaMA 3と比較していませんでした。
ここで、彼らはこれをLLaMA 2、70億のパラメーターと比較していることがわかります。
もちろん、彼らはそれを打ち負かし、GoogleやQuen's 1.5などの他のものを打ち負かすと述べています。
しかし、実際に彼らが行ったことは、元のパラメーターを見ると、彼らは実際にLLaMA 3、70億の命令を比較していることがわかります。
私は推測していますが、もしかしたら元のシステムがLLaMA 3を打ち負かすのであれば、この小さなシステムがLLaMA 3を打ち負かすわけではないと思います。何らかの理由でそれを含めていないからだと思います。
おそらく彼らはできたでしょう。
これはまだ非常に興味深いと思います。なぜなら、彼らは他の小さなモデルよりもレベルが上の小さなモデルを持っているからです。
しかし、ここでのポイントは、私が他のいくつかのことに基づいて見たことによると、実際に画像生成について話しているということです。
率直に言って、ここのテキストは少し混乱しています。
私はそれが何を説明しようとしている文脈を理解しようと努力しましたが、時々少し混乱します。
そして、その記事へのリンクを残します。
実際に話していることの1つは、これがカロリーアシスタントになると言っており、画像を提出して完全にカロリーを理解することができるということです。
そして、今のところAIの分野はかなり盛り上がっています。
そして、これは私たちを驚かせるモデルを持つ中国から出てくる唯一の企業ではないでしょう。
しかし、今のところ、これは非常に興味深いアップデートのように思えます。
その会社のネイティブ生成AIモデルを発表した後、株価が30%以上急騰したことも興味深いです。
これは、会社の株価が30%上昇した要因であり、彼らが話している基準がそれほど良くない可能性があるかもしれません。
しかし、私たちがそれを知る唯一の方法は、もちろん、アリーナでテストすること、他の人が独自の評価を行うことです。
そしてもちろん、これは中国語に微調整されていると推測しているので、少し異なることになるでしょう。
翻訳は完全に正確でないかもしれません。
もしかしたら、英語モデルを作成すれば、それが同等以上になるかもしれません。
しかしもちろん、これは見なければならないことになるでしょう。
SenseTimeの新しいモデルについてどう思うか、中国が米国の競合他社に追いつくと思うか、そしてこれが実際に景色にどのように影響するかを教えてください。
私は、これは非常に魅力的な競争だと思います。この業界に何百万、何十億ドルもの資金を投入するモデルや異なる企業を引き続き見ることになると思います。
なぜなら、前にも述べたように、私たちは今、その終着点の競争状態にあると思うからです。一つの企業が停止すれば、リードをほぼ放棄することになります。