見出し画像

動画を文章で説明する『Video-LLaVA』のデモ版を試してみた。

動画を読み込んで文章で解説してくれるツールが開発されました。オープンソースモデルとのこと。

「Video-LLaVA」は性能評価も高いとのこと。


オンラインでデモ版があったので早速試してみました。

上記のツイートを辿るとリンクがあります。

今回はこちらのデモを試しました。


画像の"text_prompt"には注文を入れます。

デフォルトで"What are these two doing?"とあるので書き換えます。

例えば"What is the person doing?"(この人はなにしてる?)という具合に。

赤枠部分に動画ファイルを入れ読み取らせます。

下に”Run”ボタンがあるのでクリックすると分析が始まります。

筆者がランニングをする女性の動画を読み込ませたところ、ちゃんと「人が走っている」という趣旨の回答を出力しました。

この記事が気に入ったらサポートをしてみませんか?