見出し画像

NLP2022告知 「動画タイトルを用いたサムネイル画像の自動選択手法の提案」

今回のテックブログは、2022年3月15日より開催される言語処理学会第28回年次大会にて発表予定の論文解説です。発表はオンラインで3月16日(水)、詳細情報は記事末尾にあります。NLP2022にご参加のみなさんは、発表にもぜひお越しください!

はじめに

みなさんこんにちは。メディア研究開発センター1年目の嘉田と申します。

以前「新人配属3ヶ月、今こんなことやってます!」ということで、メディア研究開発センターに配属された新入社員の業務をご紹介させていただきました。早いものでそれから3ヶ月が経ち、そろそろ新入社員と名乗れなくなるな〜と感じる今日この頃です。

今回のテックブログでは、上記でご紹介した動画のサムネイル画像自動生成の研究について、言語処理学会第28回年次大会(NLP2022)で口頭発表させていただけることになりましたので、その告知・研究内容紹介をしたいと思います!

以前のテックブログではハイテンションでボツネタをご紹介するという奇行に走った筆者ですが、今回は真面目に研究の概要をご紹介できれば...と思っております。

研究背景

はじめに、サムネイルの自動生成の研究背景をお話したいと思います。

以前の記事で、YOLO(有名な物体検出モデルではなく、You Only upLoad Own-fileの略)という社内向けの文字起こしサービスを紹介しました。YOLOに入ってくる動画ファイルに適切なサムネイルをつけることで、ユーザーが情報を探しやすくなる。ここからスタートした研究でした。

サムネイルがあることでファイルの視認性が高まり、ファイルをより認識・管理しやすくなります。Windowsユーザーはエクスプローラー、MacユーザーはFinderなどを思い浮かべていただけるとわかりやすいかもしれません。
動画ファイルには画像情報があるので、ファイル名といったテキスト情報だけでなく、画像情報を使ってファイルを探せたほうがユーザーにとっては万々歳なはずですね。

そして、YOLOにとどまることなく、本社のコンテンツ制作の支援につながる研究だと考えています。

サムネイルはコンテンツ制作においても重要な要素です。
コンテンツの顔と言える存在であり、ユーザーの第一印象を左右します。そのため、サムネイルの質は重要です。
一方、通常動画のサムネイルは動画内の1フレームを選び出して設定しますが、特に大量に動画コンテンツを制作するような現場ではその作業負荷は高く、質の良いサムネイル生成の効率化が求められていると言えます。

本社では日々大量の報道動画を撮影しています。そして、全国各地から届いた動画素材を管理、編集・発信する動画制作者の負担は大きいものになっています。

サムネイルに適切なフレーム候補を複数枚提示する機能を開発することで、

  • ファイルの視認性が上がり、素材を管理しやすくする

  • 動画制作者がサムネイルを作成する作業の支援となる

という2つが実現できると考え、研究に取り組みました。

研究概要

本研究では動画タイトルを用いたサムネイル選択手法を提案します。

提案手法の概要図

ここで、動画タイトルは動画の主題(内容)をよく表したテキスト情報だと仮定して、動画内から動画タイトルとの関連性が高い = 動画の内容を表すフレームをサムネイルとして自動で選択します。
さらに、効果的に候補画像を抽出する手法、及び性能向上のためのリランキング手法も提案します。

提案手法のキーワードは、

  • CLIP(Contrastive Language-Image Pre-Training)

  • ピーク検出

  • ランキング学習

の3つです。

本手法は、機械学習モデルの学習データに動画自体を必要としないという点が特徴です。
動画のサムネイル選択を行うモデルを構築する上で、動画とサムネイルのパラレルデータセットを用いるのがストレートなアプローチかと思います。
しかし、サムネイル情報を保有した、リッチな日本語の動画データセットというのは確認できませんでした。

そこで、今回は画像とテキストのパラレルデータを用いたモデルによるサムネイル選択に取り組みました。
このようなデータセットは日本語でも存在しますし、本社の保有する大量の記事情報を活用し、独自のデータセットを構築することも期待できたからです。

提案手法は2つの実験によって性能評価を行いました。
そこでは先行研究よりも良い性能を確認し、さらに提案手法が実際の業務フローに役立つ可能性が示唆されました。

研究概要は以上となります。
下記PDFが実際の発表論文になりますので、より詳細な部分、実験結果などが見たいという方は是非こちらを御覧ください。

選択されたサムネイルはこんな感じです

実際にどのようなサムネイルが選択されるのか、気になるところですよね。本社YouTubeアカウントにアップされている動画での選択結果を少しご紹介します。

まるでタワマン 解体すすむ淡路の観音像」というタイトルの動画での結果を見てみます。

画像上の数字はサムネイルに適した順位を表しています。
観音像の解体の動画に対して、動画タイトルにマッチしたいい感じのサムネイルが選択できているのではないでしょうか?

また、実際に動画制作者がつけたサムネイルは下記です。

こちらの例では実際のサムネイルに使われたフレームとほぼ同じものを最上位候補(上段左)として選択できていることがわかります。

さらに、「晩秋の尾瀬、金色に輝く 今だけ見られる景色」というタイトルの動画ではどうでしょう。

金色に輝いていそうです…。
なお、こちらの動画は、論文中で“即物的でないタイトル”として紹介したものとなります。今回用いたCLIPはこのように幅広いタイトルに適用可能です。
こちらの例も最上位候補とほぼ同じフレームが実際のサムネイルとして使われています。

おわりに

ということで、上記研究をNLP2022で発表してまいります。
筆者は人生初の学会発表にドキドキワクワクしております。

最後になりましたが、下記が発表情報です。

言語処理学会第28回年次大会(NLP2022)
https://www.anlp.jp/nlp2022/

3月16日(水) 15:20-17:00 Zoom
E6-4: 動画タイトルを用いたサムネイル画像の自動選択手法の提案  
○嘉田紗世, 山野陽祐, 新美茜, 田森秀明, 小海則人 (朝日新聞社), 岡崎直観 (東工大), 乾健太郎 (東北大/理研)

是非お越しください!お待ちしております〜!

(メディア研究開発センター・嘉田紗世)