<検証>Gemini 1.5 Proの動画理解は何がどうダメなのか
<更新情報>
この記事の後、たった2ヶ月で
全然「ダメ」ではなくなりました
現在のGeminiはサイコーです
🎉Gemini1.5Proが使えるようになりました
申し込んでから3週間ぐらいでしょうか
Soraどころか、そのあとのClaude3とのダブルパンチでもはや誰も話題にしていない感のある悲しいGemini1.5Proですが、早期アクセスの申し込みが通り、晴れて使用可能になりました
興味は一点
『動画の理解力どのぐらいあるの?』
Claude3の高いコンテキスト理解力と「トークン数20万もあればだいたい行けるな」という実感値、そして全然聞こえてこない Gemini1.5 Proの評判とで、売りである100万の大コンテキストウインドウへの期待はもうありません
ですがもう一つの売り、マルチモーダルモデルである事、特にデフォルト機能で動画を認識できるLLM→LMMというのは、OpenAIを含めても2024/3/14現在オンリーワンの存在なので、検証しないわけにはいきません
<検証>どのぐらいの精度で動画を理解できるのか?
動画コンテンツの分析やレビューに使えるか?
タイトルにある通り残念な結果だったので結論を先にまとめてしまいます
▼検証の実際の内容はこちら
Geminiが事前知識でチートできないように
誰も知らない🥹自主制作の
ショート作品で検証します
『ワクワク★ジョブハンターズ』実際の内容
番組「ワクワク★ジョブハンターズ」が始まる
ナビゲーターのきらりは今回のゲスト"手袋置き師"の佐藤さんを迎える
きらりが仕事内容を尋ねると「道端に手袋を置くこと」だと答える
理由を聞かれた佐藤さんは丁寧に説明を始める
冬場、人々はスマホ操作のために手袋を外してポケットに入れるが、出し入れの拍子に落としてしまうことが多い
佐藤さんの仕事は、その失くし物を未然に防ぐため、先回りして手袋を道に置いておくこと
それを見た人々は、自分も手袋を落とさぬよう気を付けようと思うという
きらりはその話を聞いて戸惑いつつも、最後は納得する
道に落ちている手袋という現象の裏にこんな仕事があったとは
次回はさらに手袋置き師の実態に迫る、と意気込むきらり
▼ 以下、Geminiの動画の理解です
ざっと流し見してテキトーに答えている感じが、ある意味リアルですが…
コンテンツビジネスに携わっていると、本当にこれぐらいの文脈理解力のプロデューサーがたまに存在するので妙にリアルを感じますが、求めているのはそこではないのでダメです!
ここはホームグラウンドなので、こちらの演出能力の至らなさ😭の問題にはさせません
▼『Gemini テメーはダメだ』という事でやり直しです
冒頭から全てのシーンを逐次再確認、説明してもらい、その後再要約した結果がこちら
社会貢献、好きだな
「手袋職人」という誤解はしっかりと修正されましたが、世間に配慮した見解を勝手に追加してくる姿勢が変わらず見られます
Geminiはポリコレまわりで事あるごとに米国内で炎上しているので、いたしかたないのかもしれませんが、これでは配慮が過度すぎて使えません…
そしてそもそも、単純に生成エラーが多く、応答も遅い印象でした
〈追加検証〉
日本語でシュールな内容だから理解が難しかったのでは?
▼英語で制作した作品
「ドルフィン・バー」でも試します
『ドルフィン・バー』実際の内容
ここはイルカがマスターを務める「ドルフィンズ・バー」
常連のカニがいつも負けてばかりのじゃんけんの悩みを相談しはじめる
カニのチョキを見越して相手はかならずグーを出してくるのだ
マスターは地道に権力を得てじゃんけんをしない環境を作ることを提案
でもカニは今すぐ勝ちたいので却下
マスターが「ハサミで相手を切ってしまえばいい」と過激な意見を出す
ルール違反だとあきれるカニ
最終的に「パーしか出せない水棲生物とだけ勝負してみては?」とランチェスター戦略に基づいてアドバイス
カニは大喜びで納得、マスターに感謝して席を立ちかける
しかしお会計の額についてひともんちゃくある
カニが「じゃあ、じゃんけんで決めよう」と勝負を持ちかける
マスターは呆れたような楽しんでいるような反応を見せて暗転
▼ 以下、Geminiの動画の理解です
勝手に作話するな 😆
「質問への返答でのハルシネーション」というのはかつてのGPTやClaudeでさんざん味わってきた事ですが、入力された情報に対して大幅に創作を加えてくるのは新鮮です
ここは再び冷静に「気付かせる」作業を促します
冒頭から登場人物の一挙手一投足をつぶさにトレースさせます
これをGeminiが要約したものが以下です
カオス🤯
やはりこれは「日本語だからダメだった」という話ではなく
根本的にGeminiのLLMとしての推論能力自体に問題がありそうです
つまるところなぜダメか
動画の認識方法は根本的にはGPT4 VやClaude3の「画像認識」と同じ
フレームを切り出した静止画像から内容を認識している
省エネしようとするとこの切り出しが散漫になる
音声認識でそれを補完しているが辻褄があまり合っていない様子
そもそもモデルが元々持っている画像認識能力以上の性能は出ない
といったところでしょう
GPTに追いこすために、無理して生煮えの「LMM的なものになりかけ」の段階で出してしまってますね…残念です
LLMが動画を理解できるLMMになると何が起こるのか?
今回の検証からはほぼ何も得るものはありませんでしたが、少しだけ思考実験はできました
今後、Soraが実装していると思われる時空間の記号化を伴った世界モデルがLLMに統合された時に、真に動画を理解できるLMMが登場してきそうです
ただしこの段階に至れば、それは動画どころか現実世界をリアルタイムに認識できる事を意味するので、「生成AI」の段階は終わり、AGIやロボティクスの領域における「新たな知性」の話になってきそうです
OpenAIが提携するFigure社のロボFigure01にLLMが搭載されたニュース