一か月半ほど前に、アーリーアクセスのGemini 1.5 Proについてこのような検証記事を書きました
<検証>Gemini 1.5 Proの動画理解は何がどうダメなのか
自作のショート映像作品を分析したのですが、この時は内容の理解以前にきちんと機能しておらず、全くもって散々な結果でした
ところが・・・
先週、4月半ばに一般に正式公開され、その後各種LLMのベンチマークリストで平均して上位にとどまっているので「ひょっとして改善しているのでは?」と一か月半ぶりに同じ動画で再度検証したところ、かなり精度の高い理解力を示しました
Googleの威信をかけてきっちりと調整をしてきたようです!
これであれば、AIによる動画レビューを作品創作に活かせる未来もありそうな雰囲気がしてきました
オリジナルショート動画の解釈
<再チャレンジ>
<1>『ワクワク★ジョブハンターズ』
動画をアップして「分析してくれ」とひとことプロンプトを入れただけですが、一か月半前と同じAIとは思えない高い解像度の返答が生成されました
☟
こちらがなんの説明もしていないにも関わらず、一発で「架空の職業紹介番組」というハイコンテキストなメタ設定を理解している点がかなり秀逸です
これであれば本来の目的である「作品のレビュー」もできるのでは?と、前回Geminiとしたかったやりとりを進めてみました
Q:啓発コンテンツではなくシュールギャグだ
どのように変更すればその側面を増やせるか?
ChatGPT4 TurboやClaude3では実現不可能な、マルチモーダルLMMならではの返答ができていますね
何気にLLMとしての回答性能もかなり進歩していて、的確なアドバイスを引き出せそうなので、質問を続けてみます
Q:実はこの動画はすべて生成AIで制作した動画なので、演出できる手法は限られてくる面がある
ここまで来ると「それぐらいとっくに考えているよ」という内容ではありますが、コンテクストを理解しつつの推論力は、GPTやClaudeと同水準に達している様子です
正直驚きました!
<2>ドルフィン・バー
前回のような支離滅裂な解釈違いはないのですが、こちらの、作品については先ほどのような勘の良さが少し足りていません
一言だけ補足してみます
Q:そんな教条的な動画ではない
単なるウィットに富んだジョーク動画だ
その視点で再度全体の流れを解釈しなおしてくれ
一抹の怪しさを覚えたので、追加で質問します
Q:全体のシナリオの流れを省略せずに整理してくれ
ほぼ完璧!なのですが「相手のグーをハサミで切り落としてしまってはどうですか?」という、イルカによるブラックジョークの部分が抜け落ちています
このあと「イルカの提案がひとつ抜け落ちている」と何度も気づきを促してみたのですが、リストアップされません
仕方がないので言及します
Q:空手の画像の場面をなぜ無視するの?
Q:なぜ反則技の部分をずっと飛ばしていたのだ?
動画の走査方法になにか粗さがあるのか?
さすがGoogle、ビジネスにおけるミスのレポートとしてベストな書式で妙に関心しました 笑
それはさておき、理解が難しい「コンテクストが高い感性だけの表現」は無視される傾向があるようなので、これはLLMで文章を扱っている時と同様に注意利用した方がよさそうです
しかし逆に言えば、視聴者にわかりにくい可能性がある独りよがりな表現をチェックする機能だとも言えそうです😱
AIによる作品レビューの可能性
生成AIでコンパクトに完結させるコンテンツ制作環境において、コンテンツのレビュー能力の限界が、アジャイルなコンテンツ開発を回す際の大きなボトルネックだと感じてきましたが、動画への理解力向上によって、いよいよ次のフェイズが見えてきた様子です
今後、他の具体的な活用方法にトライしてみます!