画像認識AI・音声信号処理により1万件超の動画データを編集 作業時間40%削減に寄与
▼クライアント
株式会社毎日放送 様
https://www.mbs.jp/
▼業種
広告・情報通信サービス|放送・出版|地上波放送(地方局)
▼サポート内容
音楽イベント『第39回 サントリー1万人の第九』の編集補助システム(設計・開発)
▼DXの分類・目的
派生事業(既存市場×既存資産)|業務効率化
▼キーワード
AI|画像認識|音声信号処理
1983年の初開催以来、師走の風物詩として親しまれている毎日放送主催『サントリー1万人の第九』。その名の通り、1万人がベートーヴェンの「第九」を大合唱する巨大スケールのコンサートだ。
2020年は新型コロナウイルス感染拡大防止のため、史上初めて一般合唱団の会場入りを見送ることに。その代わり、全国から集まった1万件以上の合唱動画を会場のオーケストラ演奏と融合させ、ライブ配信を実施した。
モンスターラボは、前年と同様の形式で開催された2021年の『第39回 サントリー1万人の第九』において編集作業の効率化を図るため、画像認識AI・音声信号処理による解析・調整を実施。一つひとつの動画をタイル状に12個ずつ並べ、マルチ画面編集の基本となる合唱動画ユニット(2✕6=12)にまとめる編集を担当した。
・‥…━…‥・‥…━…‥・‥…━…‥・
■課題
イベント開催にあたり、世界各国からの投稿される1万件超の歌声動画。投稿者の撮影環境に左右されるため、動画データの画角や歌い出しのタイミングが不揃いであるほか、違うパートを歌っているものや途中停止しているものも混在しており、編集作業に膨大な工数がかかることが課題に挙がっていた。
今回の依頼では、IT技術を活用して作業工数の大幅な削減を図りながら、期日までにデータの取りこぼしなく、一人ひとりが会場に揃って合唱をしているかのような動画を完成させることがミッションとなった。
・‥…━…‥・‥…━…‥・‥…━…‥・
■ソリューション
まずは動画を音声と映像の要素にわけ、それぞれに活用すべき最適な技術を検討。
音声の調整では、Cross-correlation技術とSignal processing技術を併用。音声波形を分析して仮説検証を繰り返すことで、歌い出しのタイミングを同期させることに成功した。
映像の切り出しでは、全動画の被写体との画角をそろえるために画像認識AIを活用。撮影環境によっては背景に入り込んだ写真なども認識してしまうため、人物の動く範囲を一定の領域で捉えられるよう調整し、精度の高い抽出を可能に。投稿者一人ひとりの映像がバストショットサイズでタイル状に並ぶ動画を完成させた。
・‥…━…‥・‥…━…‥・‥…━…‥・
■結果
モンスターラボは1万4215件分の一般投稿動画に画像認識AI、音声信号処理による解析・調整を実施。動画編集の初期作業を効率化し、編集作業時間を前年比で40%削減した。
(情報公開日:2022年1月13日)
・‥…━…‥・‥…━…‥・‥…━…‥・
事例についての問い合わせ、DX(デジタルトランスフォーメーション)のご相談は以下からご連絡ください。