見出し画像

AIは動画内容を読み取れるか:ツッコミ動画とBTS


オタクがAI検索エンジンに望むもの

AIの使い道、そして要望

先日記事を書いたPerplexityは、テキストベースの検索エンジンです。
基本的にはネットのテキスト情報を拾ってきて組み立て直して提示してくれています。

こういうAIを使うと、例えば社内情報を食べさせてAIを総務の問い合わせ対応窓口にするとか、社内データのコンシェルジェ的な役割をさせることができ、企業向けサービスも開始されています。
学習ミスってさらっとウソを教える可能性があるとはいえ、めちゃめちゃ便利な世の中が来ましたね!

そんな中、今私が死ぬほど欲しいのが、動画を読み取ってくれるAI検索エンジン
何故なら、編集動画の検索が難しすぎるから……!

ヅカとバンタンと肖像権

ちょっと前置きが長くなるんですが、語らせてください。

私はヅカファンでもあるんですけど、宝塚は肖像権周りがめちゃめちゃ厳しいです。
公式の画像や動画は基本的に利用禁止なので、一部のファンは似顔絵を書いたりお茶会レポート漫画を描いたりしてたんですが、2023年に劇団が「ファンアートの投稿禁止」方針を打ち出してきて二次創作業界やSNS界隈が大打撃。
生成AI対策ではないかという話もありましたが、とりあえず荒れました。

それに比べると、BTSの場合、そもそも属しているK-POP界が、日本に比べるとグレーゾーン広め。

ライブで皆携帯撮りまくりとか、センイル広告で写真使いまくりとか、マスタニム文化とか、色んな意味でヅカに慣れた私には衝撃でした。
アイドル側もマスターのカメラに目線送ってる様子に、ようやく「共存してるんや!」と悟りましたが、最初は全カメラを支配するテテの超常能力かと思いました。心臓が止まったわ。

ARMY生成装置:ツッコミ動画

私もBTSにハマって初めて存在を知ったのですが、ツッコミ動画(ツッコミMV)と呼ばれている動画ジャンルがありますね。
公式・非公式の動画を編集し、字幕でツッコミや解説を入れてくれてるやつ。

先ほど挙げたグレーゾーンの広さもあって、BTS関連動画はそもそもが異常な多さを誇ります。
これらを1つ1つ追っていくの……?と途方に暮れた新規に対し、優しすぎる手を差し伸べるのが、このツッコミ動画です。

膨大なコンテンツを凝縮して名場面集にしてくれたり、日本語字幕が公式より詳しかったりするので、ARMYの大量生成には欠かせない要素だと思われます。
この道を通っていないARMYがいるだろうか、いや(反語)というくらい。

しかし最初見た時は驚きました!
一次情報を改造しての二次創作というか、もう一次情報がフリー素材状態。すごい世界がきた。

ソース元動画に行きつけない問題

とはいえツッコミ動画は私も大好きで死ぬほど見てますが(現在進行形)、1つ困ることがあるんです。

ツッコミ動画で見た名場面の原典(ソース元動画)がわからない!

ツッコミ動画のうち、楽曲MVをベースにしてるやつ(ツッコミMV)は原典がわかりやすいので、よしとしましょう。

しかし、問題は名場面集系動画。こちらは場面ごとの出典は提示されないことがほとんどです。
なので、見てる側が徐々に学習していくしかないわけです。この髪型と髪色はこの曲が出た時、この背景は〇〇コンでの楽屋、これはあれのビハインド……みたいな感じで。

この学習過程が罠で、最初見た時も笑えたけど、しばらく経つとネタの意味が分かってきて更に面白い、みたいなエンドレス再生不可避の沼が広がっていき、気がついたら深みにハマっています。まるで蟻地獄。

BTS関連のコンテンツ量は半端じゃないので、学習はわりと大変です。幸せにやってますが。
名場面集を見て本編を見たくなっても、なかなか行き着けません。脳内ライブラリの整理が急務です。
また、ソース動画を見つけたはいいが、次は見ていたツッコミ動画に戻れなくなった問題なども発生します。
履歴とプレイリストを駆使しましょう! 追いかける側も必死。

オタク活動サポートAIへの期待

そこで期待したいのが、AI検索エンジンの飛躍です。

社内情報を食べさせてAIを総務の問い合わせ対応窓口にするとか、社内データのコンシェルジェ的な役割をさせることができます。

さっき書いた文章をもう一回貼る

これをやってほしい。
今ある動画検索エンジンは、基本的にはタイトルや説明文、閲覧情報などを取っているのですが、そうじゃなくて内容を把握してほしい。
無茶を言った自覚はありますが、続けます。

AI検索エンジンに数多あるツッコミ動画の内容を学習させ、「この動画の1:23の場面の元になってる公式動画はどれ?」とか訊きたい!
「ナムさんが愛嬌した後照れる様子をまとめた動画で、〇〇ってツッコミが入ってたやつ」ってリクエストしたら、「これですね」ってURLを差し出してくれるAI早く!!(欲望全開)

このへんからは生半可な知識で言うので、興味のある人はご自身で裏を取っていただければと思うのですが、AI検索は基本的にテキスト収集と画像比較に強いという特性を持っています。
動きや会話を見るんじゃなくて、テキストや画面を見ているわけですね。その場合、ツッコミ動画との相性はいまいちかもしれません。
やるとしたらどこが問題なのか、考えてみましょう。

AIはツッコミ動画コンシェルジェになれるか

AIにツッコミ動画コンシェルジェをやらせようとした場合、まず各動画の編集演出のベースにある、元データを認識させなければなりません。
まずは公式チャンネル系の全動画を、AIに食べさせましょう。

楽曲MVはまだいけると思います。7人以外がほぼ出てこないし(モブはいるけど)、会話もない(ラップはあるけど)。
まずは画像認識の技術でメンバーを見分ければ何とか……。

しかし名場面集系ツッコミ動画は、どこがどこまでが連続していて、どこからが追加された演出なのかの判断材料を、学習させる必要があります。わりとむずい。

コンシェルジェをさせたい場合、セリフを拾ってくれないと困るので、動画内のテキスト把握は必須です。
しかし、動画から字幕情報を読み取ってテキスト蓄積させようとしても、「字幕の表示位置が固定じゃない問題」「同じ場面でも人によって翻訳結果が違う問題」などが出てきます。これまたむずい。

この問題があるから、「ジンくんの〇〇発言はいつ」みたいな疑問が、検索で解決しづらいんですよね。
原発言が韓国語なので和訳が人によって揺れており、意訳も含まれるため、ソース情報にたどり着くだけの合致情報が取れないという……。そりゃyahoo!知恵袋が大活躍するだろうな、という感じです。
リンク貼ってくれてる神ARMYには足を向けて眠れません。いつもありがとうございます。

翻訳と言えば、BTSが英語でインタビュー受けてる動画あるあるですが、途中で言語が混ざるため、自動生成字幕が混乱して役に立たない問題もありますね。
そもそも字幕設定されてない動画も多いし、じゃあどうやってAIは動画内容を学習したらいいのか、真剣に悩みます。とりあえず頑張って!(精神論)

ちなみに音声からの字幕生成AIもありますが、会話音声の識別はわりと難易度が高め。
しかもバンタンたら7人同時に喋るわ歌うわラップするわで、AI泣かせにもほどがあります。かわいい。
丁寧に各メンバーのセリフを拾い、絵文字や色分けで誰の発言が識別できるようにしてくれる編集ARMYの愛の深さには、ほんと脱帽です。天使でしかないのよ、ほんまに……。

AIがARMYを超える時

今の段階では、「ARMYこそ神」という結論しか出ません。
よくこれだけの情報を消化できるなと、人間の仕様と愛のパワーに脱帽しますね。

残念ながら、まだAIは発展途上の技術です。がしかし、人の欲望こそが、技術革新を引き起こして来たのです。
少しでも楽にたくさんバンタンが見たい
そんな、私のニッチでストレートな欲望も、いつか実現する日が来るかもしれません。そのためにも、ここに希望を書き残しておきます。
できたら早めにお願いします!!




コーヒー一杯奢ってください( *´艸`)