MM-VID: GPT-4V(ision) を用いてビデオの理解を促進するシステム

2023年11月2日 08:22

本記事では論文の一部を要約し紹介させていただきます。詳細は以下より、論文を参照してください。

MM-VIDは、GPT-4Vとビジョン、オーディオ、スピーチの専門ツールを組み合わせたシステムで、長時間のビデオ内容やエピソードを跨るストーリーラインの理解を目的としています。ビデオのマルチモーダル要素を長文テキストに変換し、キャラクターの動きや対話などを記録することで、ビデオ理解を実現しています。様々なジャンルのビデオやインタラクティブな環境での有効性が示されています。

Introduction

人々は日々、様々な種類のビデオを創造していますが、特に長時間のビデオ理解は複雑な課題を含んでいます。これは、シーン内の人物の識別や動作の理解、さらには物語の一貫性の維持など、多角的な情報の抽出を必要とします。従来のビデオモデルは短いクリップや限定されたアクションクラスの分析には有効ですが、実世界の長いビデオには対応していません。本研究では、実世界の長いビデオを直接理解するための手法を探求しており、MM-VIDはこのようなビデオを理解し、対話型環境での適用可能性を実証しています。

MM-VID

MM-VIDは、ビデオファイルを入力として受け取り、ビデオ内容を記述するスクリプトを出力するシステムです。生成されたスクリプトにより、大規模言語モデル（LLM）は、様々なビデオ理解機能を実現します。MM-VIDは、マルチモーダル前処理、外部知識収集、クリップレベルのビデオ記述生成、スクリプト生成の4つのモジュールで構成されています。

マルチモーダル前処理では、Automatic Speech Recognition (ASR)ツールを使用してビデオからトランスクリプトを抽出し、PySceneDetectのようなシーン検出ツールで重要なシーンの境界を特定します。
外部知識収集では、YouTubeからメタデータ、タイトル、要約などを収集します。
クリップレベルのビデオ記述生成では、GPT-4Vを用いて、10フレームから成るクリップごとにビデオ記述を生成します。
LLMを使用したスクリプト生成では、各クリップの記述を統合し、ビデオ全体の包括的な記述となる一貫したスクリプトを生成し、ビデオ理解のための様々なタスクに使用します。

ストリーミング入力についても、MM-VIDはストリーミングビデオフレームを連続的に処理し、動的な環境での視覚情報を解釈して、情報に基づいた決定と応答を生成します。このシステムにより、ビデオゲーム、自律エージェント、GUIナビゲーションなどのアプリケーションで視覚データを有用な洞察に変えることができます。