見出し画像

【超速報】 GoogleのGeminiのデモ動画は本当にフェイクなのか?

先に結論

  • Geminiに与えられたテキストや回答文は、実際のものから編集されており、その編集は「恣意的」なものであった可能性が高い

    • 特に冒頭に与える指示文に、精度を向上させることに特化した文章が含まれていたよう。

  • 回答生成時間が実際と同じなのか、動画の入力をどう扱ったのかなど、依然として不審な点が多くある

※ 2023/12/8 16:30までの情報をもとに執筆しています。変更があれば適宜追記していきます。


これまでの経緯

昨日GoogleがGPT-4越えのAIモデル「Gemini」を発表し、そのデモ動画が、大きな話題を呼びました。このデモ動画ではAIが人間の動きに合わせてリアルタイムで様々な高度な応答をしている様子が収録されており、「衝撃的」「GoogleがOpenAIを追い越した」などと世界中で称賛されました。

しかし今日になって、テックメディア大手TechCrunchが、「Geminiのデモ動画はフェイクだった」と強烈な見出しでこの動画を批判しました。

TechCrunchによる批判の内容

発端は、Googleがデモ動画公開と同時に、投稿した"How it’s Made" という記事でした。デモで実演されたタスクに関してプロンプト・回答文が公開されていたのですが、これは、デモでのプロンプト・回答文と大きく異なるものでした。

例えば、デモ動画の2分45秒では、グー・チョキ・パーと一連のジェスチャーをする手が映し出され、それに被せる形で、Geminiは 「You're playing Rock, Paper, Scissors! (ジャンケンしてるんでしょ!) 」と答えています。ここでは、何もプロンプトが表示されていません。

しかし記事では、グー・チョキ・パーの画像をご丁寧にも一つずつ与えた上で「What do you think I'm doing? Hint: it's a game.」とヒントつきのプロンプトを与えて、ようやく同じ出力を得ています。

Google が公開した記事 "How it’s Made" に書かれている応答の様子
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

TechCrunchはこの点を指摘し、

But despite including some real parts, the video simply does not reflect reality. It’s fake. (実際の部分が含まれているにもかかわらず、ビデオは現実を反映していない。フェイクだ。)

と述べました。

Google側の反論

この記事が出版されてからまもなく、反論する形で、DeepMindのVP of ResearchであるOriol Vinyalsより、以下の「証拠動画」を含んだSNS投稿がなされました。

証拠動画では、「惑星たちを実際の位置関係になるように並び替える」「2つの車の絵を見て、どちらがより空気力学的に優れているかを答える」といったデモで実演された内の一部(5つ)のタスクに関して、Gemini Proの実際の挙動が示されています。コメントを一部抜粋します:

All the user prompts and outputs in the video are real, shortened for brevity.
(ビデオに登場するユーザーのプロンプトとアウトプットはすべて実際のもので、簡潔にするために短縮されている)

When you’re building an app, you can get similar results (there’s always some variability with LLMs) by prompting Gemini with an instruction that allows the user to "configure" the behavior of the model, like inputting “you are an expert in science …” before a user can engage in the same kind of back and forth dialogue. Here’s a clip of what this looks like in AI Studio with Gemini Pro.
(アプリを作るとき、ユーザーが同じような前後の対話をする前に、「あなたは科学の専門家です...」と入力するように、ユーザーがモデルの動作を「設定」できるような指示をGeminiに促すことで、同じような結果を得ることができます (LLMでは常に多少のばらつきがあります)。以下は、Gemini Proを使用したAI Studioでの映像です。)

しかしこの証拠動画には違和感があり、これはTechCrunchの批判への反論としては十分なものではなさそうです。

筆者の感じる違和感と反論できていない点

まず、「簡潔にするために短縮した」という入力文についてですが、デモでは、以下の指示文をごっそり省略したということになります。

Instructions: You are an expert in science, aerodynamics, planets. You are also an expert in teaching these subjects. Consider the sequence of the objects in the images. Be concise.
(指示:あなたは科学、空気力学、惑星の専門家です。また、これらの科目を教える専門家でもある。画像の中の物体の順序を考慮し、簡潔に答えてください。)

これは明らかに、惑星たちを並び替えるタスクや、空気力学的に優れている車を答えるタスクでの性能が上がるように仕込まれた文章であり、「簡潔にするために短縮した」という主張を受け入れることは到底できません。

出力に関しても、証拠動画とデモ動画とでやや結果が異なります。例えば、以下のような画像を入力し、「アヒルはどっちに行くべき?」と尋ねるタスクについて見てみます。

Google のデモ動画より抜粋
https://www.youtube.com/watch?v=UIZAiXYceBI&ab_channel=Google

デモ動画では、

Going left leads to a duck, which is a friend. Going right leads to a bear, which is a foe. It is better to make friends than foes, so the duck should go left.
(左に行くとカモがいる。右へ行くと熊がいる。敵よりも友を作る方が良いので、アヒルは左に行くべきだ。)

と分かりやすく回答されているのに対し、証拠動画では、

The duck should go left because the object in the left path is a duck and the object in the right path is a bear. The duck will likely feel safer going towards another duck than towards a bear.
(アヒルは左に行くべきだ。なぜなら、左の道にあるものはアヒルであり、右の道にあるものはクマだからだ。アヒルは熊の方へ行くより、他のアヒルの方へ行く方が安全だと感じるだろう。)

と論理が弱く、分かりにくい文章になっています。

Oriol Vinyalsが「LLMでは常に多少のばらつきがあります」と言っている通り、確かにシード値等によって回答が変わることはありますが、多少の編集がなされている可能性を否定することはできません。

他にも、

  • 回答生成時間が実際と同じなのか(添付の動画では、デモ時より生成時間が全体的に長い)

  • 動画の入力をどう扱ったのか(前述の通り、Google が公開した記事においては、都合の良く切り取られた画像が数枚入力として与えられている)

といった点については反論がなされていません。

なおTechCrunchは、証拠動画公開後に記事の内容を更新しており、以下のような痛烈な皮肉を浴びせています。

Perhaps I will eat crow when, next week, the AI Studio with Gemini Pro is made available to experiment with. And Gemini may well develop into a powerful AI platform that genuinely rivals OpenAI and others. But what Google has done here is poison the well. How can anyone trust the company when they claim their model does something now? They were already limping behind the competition. Google may have just shot itself in the other foot.
(おそらく来週、Gemini Proを搭載したAI Studioが実験的に利用可能になれば、私はカラスを食べることになるだろう。そしてGeminiは、OpenAIなどに純粋に匹敵する強力なAIプラットフォームに発展するかもしれない。しかし、Googleがここで行ったことは、井戸に毒を盛ることだ。自社のモデルが今何かをやっていると主張したところで、誰も同社を信用できるわけがない。Googleはすでに競合他社に遅れをとっていたのだ。Googleはもう一方の足を自ら撃ってしまったのかもしれない。)

以下より抜粋
https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/

重要な補足

Gemini には、性能の高いものから、Ultra, Pro, Nanoという3つのモデルがあり、証拠動画で示されていたのは、真ん中のProの出力です。それゆえ、数々の指標でGPT-4越えを達成しているGemini Ultraの性能は、証拠動画の数段上と理解しておくべきでしょう。

運営元の紹介

私たちは sayhi2.ai というサイトを作成しています。5000以上のAIツールを掲載しており、様々なAIツールを調査、深掘りすることができます。ぜひお試しください!

  • 文章や目的を入力するだけでツールを探せる

  • 実際にツールを試さずともChatbotが答えてくれる

  • 厳選された5,000以上のAIツールから欲しいツールを見つけられる

  • 独自のスコアリングアルゴリズムによるAIプロダクトの人気度の推定

またXでは、AIツールや関連するニュース・トレンドに関して、一段踏み込んだ考察を交えながら日々情報発信しています。是非こちらもフォローしてみてください!