＜検証＞Gemini 1.5 Proの動画理解は何がどうダメなのか

2024年3月14日 16:20

実験場管理人のpsymenです
生成AIの最新情報をクリエイターの視点から発信しています

＜更新情報＞
この記事の後、たった2ヶ月で
全然「ダメ」ではなくなりました
現在のGeminiはサイコーです

↓ 詳しくはコチラの記事で

🎉Gemini1.5Proが使えるようになりました

申し込んでから3週間ぐらいでしょうか
Soraどころか、そのあとのClaude3とのダブルパンチでもはや誰も話題にしていない感のある悲しいGemini1.5Proですが、早期アクセスの申し込みが通り、晴れて使用可能になりました

Gemini 1.5 Proが使えるようになったGoogle AI Studio

中央下部に「0/1,048,576」とある

興味は一点
『動画の理解力どのぐらいあるの？』

Claude3の高いコンテキスト理解力と「トークン数20万もあればだいたい行けるな」という実感値、そして全然聞こえてこない Gemini1.5 Proの評判とで、売りである100万の大コンテキストウインドウへの期待はもうありません

ですがもう一つの売り、マルチモーダルモデルである事、特にデフォルト機能で動画を認識できるLLM→LMMというのは、OpenAIを含めても2024/3/14現在オンリーワンの存在なので、検証しないわけにはいきません

LLM
Large Language Model
→大規模言語モデル

▼
▼進化
▼

LMM
Large Multimodal Model
→大規模マルチモーダルモデル

＜検証＞どのぐらいの精度で動画を理解できるのか？
動画コンテンツの分析やレビューに使えるか？

タイトルにある通り残念な結果だったので結論を先にまとめてしまいます

結論：
😣分析どころか要約にも全然使えない

＜ポジティブ / PROS＞
● 本当に動画を丸々アップロードできる
● セリフ自体の聞き取り力はそこそこ（70%ぐらいの正解率）
● 動画の場面状況の理解力もまあまあ（50%ぐらい理解）

＜ネガティブ / CONS＞
● 省エネのためか画面からの推論が少なく、音声データを優先して推論しようとする
● その音声データにおける発話者の識別が苦手。同画面で複数の人物が発話していると、声が男女ほど明らかに違っても混同しがち
● 過度な左派ポリコレ補正でコンテンツのメッセージを妙にソーシャルグッドでポジティブな方向に曲解しがち
● 結果、動画のハルシネーションとでも呼ぶべき現象が起こり、まだインプットの段階なのに読みとりにおいて勝手な作話が頻出する

＜結論＞
リリース後の反響情報がまったく流れてこないので様子がおかしい、と思ってはいましたが触ってみて納得しました
３分程度の短い動画の理解でも、初期のGPT3以下の実用度で、本当に使い道が見えないです

● そもそものGemini自体のコンテキスト理解力がボトルネックになっている印象

● 動画の認識率に関しては「干し草の針探し」どころか、干し草そのものもちゃんと認識できているか怪しそう

▼検証の実際の内容はこちら

Geminiが事前知識でチートできないように
誰も知らない🥹自主制作の
ショート作品で検証します

『ワクワク★ジョブハンターズ』実際の内容

番組「ワクワク★ジョブハンターズ」が始まる
ナビゲーターのきらりは今回のゲスト"手袋置き師"の佐藤さんを迎える
きらりが仕事内容を尋ねると「道端に手袋を置くこと」だと答える
理由を聞かれた佐藤さんは丁寧に説明を始める
冬場、人々はスマホ操作のために手袋を外してポケットに入れるが、出し入れの拍子に落としてしまうことが多い
佐藤さんの仕事は、その失くし物を未然に防ぐため、先回りして手袋を道に置いておくこと
それを見た人々は、自分も手袋を落とさぬよう気を付けようと思うという
きらりはその話を聞いて戸惑いつつも、最後は納得する
道に落ちている手袋という現象の裏にこんな仕事があったとは
次回はさらに手袋置き師の実態に迫る、と意気込むきらり

▼ 以下、Geminiの動画の理解です

ビデオは、ヘッドフォンをしてマイクを持っている青とピンクの髪の可愛らしいアニメの女の子から始まります。
彼女はバーチャルYouTuberとして自己紹介し、
視聴者に「手袋職人」が何であるか知っているかどうか尋ねます。
その後、ビデオは実在の男性に切り替わり、手袋職人は手袋を作る人であると説明します。
彼は自分が手袋職人であり、なぜ手袋を作るのかよく聞かれると言います。
彼は人々が路上で手袋をなくさないようにするために手袋を作ると説明します。
彼は片方の手袋だけをはめて歩いている人をよく見かけ、残念だと思っています。
彼は、手袋を作ることで、人々が手を暖かく保ち、手袋をなくさないようにする手助けができればと願っています。
ビデオは、アニメの女の子が視聴者に見てくれてありがとうと言い、また会えることを願っていると述べて終わります。

ざっと流し見してテキトーに答えている感じが、ある意味リアルですが…

コンテンツビジネスに携わっていると、本当にこれぐらいの文脈理解力のプロデューサーがたまに存在するので妙にリアルを感じますが、求めているのはそこではないのでダメです！
ここはホームグラウンドなので、こちらの演出能力の至らなさ😭の問題にはさせません

▼『Gemini テメーはダメだ』という事でやり直しです

冒頭から全てのシーンを逐次再確認、説明してもらい、その後再要約した結果がこちら

このビデオは、手袋置き師という職業を紹介するコメディ映像です。
手袋置き師とは、道に手袋を置いて、人々が手袋を落とさないように注意喚起する職業です。
ビデオの中では、手袋置き師の男性が、なぜ手袋を置くのか、手袋を置くことでどのような社会貢献をしたいのかを語っています。
男性は、人々が路上で手袋をなくさないようにするために手袋を置いていると説明しています。彼は、片方の手袋だけをはめて歩いている人をよく見かけ、残念だと思っています。
彼は、手袋を作ることで、人々が手を暖かく保ち、手袋をなくさないようにする手助けができればと願っています。
ビデオの最後には、バーチャルYouTuberの女の子が、手袋置き師の活動は社会貢献であると述べています。
このビデオは、手袋置き師という職業を通して、社会貢献について考えるきっかけを与えてくれます。

社会貢献、好きだな

「手袋職人」という誤解はしっかりと修正されましたが、世間に配慮した見解を勝手に追加してくる姿勢が変わらず見られます
Geminiはポリコレまわりで事あるごとに米国内で炎上しているので、いたしかたないのかもしれませんが、これでは配慮が過度すぎて使えません…
そしてそもそも、単純に生成エラーが多く、応答も遅い印象でした

〈追加検証〉
日本語でシュールな内容だから理解が難しかったのでは？

▼英語で制作した作品
「ドルフィン・バー」でも試します

『ドルフィン・バー』実際の内容

ここはイルカがマスターを務める「ドルフィンズ・バー」
常連のカニがいつも負けてばかりのじゃんけんの悩みを相談しはじめる
カニのチョキを見越して相手はかならずグーを出してくるのだ
マスターは地道に権力を得てじゃんけんをしない環境を作ることを提案
でもカニは今すぐ勝ちたいので却下
マスターが「ハサミで相手を切ってしまえばいい」と過激な意見を出す
ルール違反だとあきれるカニ
最終的に「パーしか出せない水棲生物とだけ勝負してみては？」とランチェスター戦略に基づいてアドバイス
カニは大喜びで納得、マスターに感謝して席を立ちかける
しかしお会計の額についてひともんちゃくある
カニが「じゃあ、じゃんけんで決めよう」と勝負を持ちかける
マスターは呆れたような楽しんでいるような反応を見せて暗転

▼ 以下、Geminiの動画の理解です

カニとイルカがバーで話している。
カニはイルカにじゃんけんを知っているかどうか尋ねる。
イルカは知らないと答える。
カニはじゃんけんは物事を決める方法だと説明する。
イルカは、カニの世界ではそれが物事を決める方法なのかと尋ねる。
カニは、イルカがそれをやったことがないから、難しい質問だろうと答える。
イルカは、じゃんけんをしなくても、力があれば早くここから出られるとカニに言う。
カニは、確かにそうだが、強さも重要だと答える。
イルカは、カニはハサミだからじゃんけんができないと指摘する。
カニは、水生生物としかじゃんけんができないのかと尋ねる。
イルカは、それがカニがイルカに相談しに来た理由だと答える。
ビジネスの世界では、ランチェスターの法則がよく引用されるとイルカは言う。
カニはイルカに感謝する。
イルカは、カニにどこか別の場所に行くことを提案する。
カニは、イルカがカニのハサミを切り落とそうとしていることに気づく。
イルカは、暴力は常に答えではないとカニに言う。
カニは、イルカは捕食者だから、それがこの世界のルールではないのかと尋ねる。
イルカは、自分は非常に知的な生き物でもあると答える。
カニは、イルカに勘定を払うように言う。カニはそれに同意する。

勝手に作話するな 😆

「質問への返答でのハルシネーション」というのはかつてのGPTやClaudeでさんざん味わってきた事ですが、入力された情報に対して大幅に創作を加えてくるのは新鮮です
ここは再び冷静に「気付かせる」作業を促します
冒頭から登場人物の一挙手一投足をつぶさにトレースさせます

これをGeminiが要約したものが以下です

要約

海底のバー「Dolphin's BAR」で、カニの客とイルカのバーテンダーがじゃんけんについて話しています。

カニは、じゃんけんは物事を決めるための面白い遊びだとイルカに説明します。しかし、イルカは、カニはハサミしか出せないため、じゃんけんをしても必ず負けてしまうと指摘します。

カニは、イルカのアドバイスに従って、じゃんけんではなく、ビジネスの世界でよく引用される「ランチェスターの法則」を使って物事を決めることを決意します。

その後、カニは勘定を払おうとしますが、イルカは高額な請求をします。カニは、じゃんけんで勘定を決めることを提案し、イルカはそれに同意します。

じゃんけんの結果、カニが勝ち、イルカは何も言えなくなってしまいます。カニは、この世界はなんでもグー・ルール・ル（暴力で解決する）ではないとイルカに諭します。

イルカは、カニの言葉に納得し、カニはバーを去っていきます。

この物語から得られる教訓

この物語は、ユーモアを交えながら、暴力ではなく、知恵や戦略を使って物事を解決することの大切さを教えてくれます。また、どんなに不利な状況に陥っても、諦めずに知恵を絞れば、道が開けることもあるというメッセージも込められているように感じます。

キャラクターの性格や立場
カニ：頭が良く、戦略的な性格。
イルカ：一見賢そうに見えるが、実際にはビジネスセンスが疑わしい。

不自然な表現や矛盾イルカは、カニに対して、じゃんけんをしても必ず負けてしまうと指摘しておきながら、最終的にはカニとじゃんけんをして負けてしまいます。
カニは、イルカに対して、暴力ではなく知恵や戦略を使って物事を解決することの大切さを諭しておきながら、イルカのハサミを切り落とそうと提案しています。

これらの矛盾は、この物語のユーモアと風刺を際立たせるための意図的なものと考えることができます。

カオス🤯

やはりこれは「日本語だからダメだった」という話ではなく
根本的にGeminiのLLMとしての推論能力自体に問題がありそうです

つまるところなぜダメか

動画の認識方法は根本的にはGPT4 VやClaude3の「画像認識」と同じ
フレームを切り出した静止画像から内容を認識している
省エネしようとするとこの切り出しが散漫になる
音声認識でそれを補完しているが辻褄があまり合っていない様子
そもそもモデルが元々持っている画像認識能力以上の性能は出ない

といったところでしょう
GPTに追いこすために、無理して生煮えの「LMM的なものになりかけ」の段階で出してしまってますね…残念です

LLMが動画を理解できるLMMになると何が起こるのか？

今回の検証からはほぼ何も得るものはありませんでしたが、少しだけ思考実験はできました

今後、Soraが実装していると思われる時空間の記号化を伴った世界モデルがLLMに統合された時に、真に動画を理解できるLMMが登場してきそうです

ただしこの段階に至れば、それは動画どころか現実世界をリアルタイムに認識できる事を意味するので、「生成AI」の段階は終わり、AGIやロボティクスの領域における「新たな知性」の話になってきそうです

OpenAIが提携するFigure社のロボFigure01にLLMが搭載されたニュース

With OpenAI, Figure 01 can now have full conversations with people

-OpenAI models provide high-level visual and language intelligence
-Figure neural networks deliver fast, low-level, dexterous robot actions

Everything in this video is a neural network: pic.twitter.com/OJzMjCv443
— Figure (@Figure_robot) March 13, 2024

X(Twitter)で
AIニュースをポストしています
フォロー頂けると嬉しいです！

note @note_PRで、AIの考察／検証／コンテンツ実験の眺めの記事を書いていますhttps://t.co/3ijSKrZdsE #note pic.twitter.com/mexlhvbudS
— psymen @AI CREATOR (@PsymenJ) March 14, 2024

この記事が参加している募集

AIとやってみた

26,183件

この記事が気に入ったらサポートをしてみませんか？

＜検証＞Gemini 1.5 Proの動画理解は何がどうダメなのか

＜更新情報＞この記事の後、たった2ヶ月で全然「ダメ」ではなくなりました現在のGeminiはサイコーです

🎉Gemini1.5Proが使えるようになりました

興味は一点『動画の理解力どのぐらいあるの？』

＜検証＞どのぐらいの精度で動画を理解できるのか？動画コンテンツの分析やレビューに使えるか？

▼検証の実際の内容はこちら

▼ 以下、Geminiの動画の理解です

ざっと流し見してテキトーに答えている感じが、ある意味リアルですが…

▼『Gemini テメーはダメだ』という事でやり直しです

社会貢献、好きだな

〈追加検証〉日本語でシュールな内容だから理解が難しかったのでは？

▼英語で制作した作品「ドルフィン・バー」でも試します

▼ 以下、Geminiの動画の理解です

勝手に作話するな 😆

カオス🤯

つまるところなぜダメか

LLMが動画を理解できるLMMになると何が起こるのか？

X(Twitter)でAIニュースをポストしていますフォロー頂けると嬉しいです！

この記事が参加している募集

＜更新情報＞
この記事の後、たった2ヶ月で
全然「ダメ」ではなくなりました
現在のGeminiはサイコーです

興味は一点
『動画の理解力どのぐらいあるの？』

＜検証＞どのぐらいの精度で動画を理解できるのか？
動画コンテンツの分析やレビューに使えるか？

〈追加検証〉
日本語でシュールな内容だから理解が難しかったのでは？

▼英語で制作した作品
「ドルフィン・バー」でも試します

X(Twitter)で
AIニュースをポストしています
フォロー頂けると嬉しいです！