見出し画像

「しっくりくる」をAIでモデル化

AIの活用は多くが、人間が感覚的にやっていることや、専門家でなくてはてはできないような熟練を要する意思決定をデータを使って解決するケースです。一方で、実際にAIの予測の対象になっているものは需要予測だったり、与信だったり、故障検知だったり、最終的には正解の存在する問題であることが多いのが特にビジネスにおける傾向です。このような問題は明確に定義し、データ化しやすく、結果も検証しやすい特徴がある一方で、答えが一つではないような問題も世の中には沢山存在しますし、そのような問題をAIがどのように解決できるのかは、面白く、重要なチャレンジです。

映像に合った音楽を見つけるAI

先日ついに私のチームが2022の年初から取り組んできたVideo2Musicをリリースすることができたのですが、まずはその成果を見てみてください:


映像に対して音楽が合っているのかどうかというのは、誰もがなんとなく持っている感覚ですし、映画を見ているときに音楽に感動したことは誰もが経験したことがあるのではないでしょうか。一方で、音楽が映像に何故あっているのかを言葉で説明できる人は少ないと思いますし、「しっくりくる」音楽を探してこい、と言われたとしても、音楽に関する知識と選曲の経験がなければ難しいと感じるでしょう。また、正解は一つではなく、あえて少しずれてるのがいい効果につながる、ということもあったりする複雑な問題です。このような問題をAIで部分的にでも解決するために、私達は様々な実験を繰り返し、幅広い動画に対して腹落ち感のある音楽の候補を提示するAIの開発に成功しました。

上のビデオには入っていないですが、古いサイレント映画、Metropolisをもとに音楽を探した結果もなかなかバッチリな選曲だと思います。ここに、インプットに使った映画の一部分と、Video2Musicから提案されたトップ3の候補曲を並べます。


候補曲A

候補曲B

候補曲C

実はこのMetropolisという映画は、ご存じの方もいらっしゃるかもしれませんが、1927年のドイツ映画で、「最初にして最高のサイエンスフィクション映画」などと呼ばれることもある作品です。ストーリーに関してはここでは割愛しますが、この映画は長く複雑な歴史を持っていて、多くの編集バージョンが存在し、また音楽に関しても様々なアーティストがサントラを作ってきました(Wikipediaには20ほどリストアップされている)

まず1927年のオリジナルスコアはGottfried Huppertzという作曲家によるもので、ワグナーやストラウスなどの影響を受けて作られたと言われています。壮大なシンフォニーで表現される世界観は私からするとドラマチックすぎる印象を受けますが、今から100年も前の作品であることを考えると当然かも知れません。この時代の作品は今回の学習データに入っていなかったこともあり、このようなマッチをVideo2Musicに期待するのは現時点では難しいところです。

この映画への関心が再び高まり、再リリースされた1984年にサントラを担当したのは、エレクトロニック・ダンスミュージックのオリジネーターとして知られるGiorgio Moroderでした。映画の尺も80分と短く編集された本バージョンは音楽もぐっとモダンなテイストとなり、81年生まれの私からすると「わかりやすい」マッチだと感じました。また、Video2Musicが選んだ候補曲Aとも近似しています。

数あるMetropolisのスコアの中からもう一つ取り上げるとすると、2000年に発表されたミニマル・テクノアーティストのJeff Millsのバージョンがあります。本バージョンは映画のリリースのために作られたというよりは、映画をインスピレーションとして音楽に落とし込んだ作品です。ミルズの作品はもともとアブストラクトでダークな雰囲気が特徴で、Metropolisの陰鬱な作風にも合っているようでもありますが、逆に支配的な印象を与えているようにも感じます。Video2Musicの選んだ候補曲だとBが近いようです。

このように、Video2MusicのAIモデルは、与えられた動画に対して幅広い解釈で候補曲を選曲してくれることがおわかりいただけたと思います。当然入力に使った動画も、候補曲のライブラリーも学習時に使った入力データとは異なります。

Video2Music開発の裏側

では、このモデルの学習の裏側を見ていきたいと思います。まず学習データに使ったのは主にYouTube上にある音楽のプロモーションビデオです。YouTubeにはジャンルも国籍も様々な音楽ビデオがあって、今回の学習の中核的なインプットになりました。例えばこんな動画です。

音楽プロモーションビデオはその音楽に合わせて映像が作られますから、今回の課題にはうってつけの素材と考えられましたが、一方で単にYouTubeの動画を検索するとアルバムカバーが静止画で表示されるだけの役に立たないビデオも多く、良質な学習データを大量に入手するには工夫も必要でした。そもそも音楽ビデオというのはイントロがあったり、ミュージシャンが歌ってるシーンがあったり、結構フォーマットが共通している点も多く、このようなデータがどれほど一般的な用途に汎化できるのか、疑問点も多かったのですが、結果として想像していた以上に幅広い動画に対して、しっくりくるチョイスを複数のアングルから提示できる結果には、開発チームにとってもいい意味でサプライズでした。

今回のモデル化のアーキテクチャーでは、動画と音楽それぞれを「特徴表現学習 (Representation Learning)」した事前学習モデルを使い、2つの潜在空間を「対照学習 (Contrastive Learning)」という手法で比較学習しアラインすることに成功しました。事前学習モデルによる特徴表現モデルは対象とするそれぞれのメディア(今回は映像と音楽)から、人間で言うところの「印象」のようなものを抽出してくれるプロセスです。これは潜在空間と呼ばれる架空の空間におけるベクトル値として表され、対照学習はその2つの空間の共通点を見つけ出し、画像から受ける印象と音から見つける印象の共通点を見つけるのです。今回のVideo2Musicでは、音楽や映像のように時系列性のあるデータをうまくモデル化するためにトランスフォーマーを使うなどの発展を加えています。上図はVideo2Musicが対象曲を探してくる仕組みを示しています。

感覚知のモデル化

深層学習による特徴表現学習の技術が広く認識されたのは2013年に発表されたWord2Vecでした。文章の穴埋め問題を解かせるという非常にシンプルな課題設定に基づく学習から、単語を新しい方法でベクトル化する「単語埋め込み」方法を示しました。Word2Vecの興味深い特徴として、ベクトル演算が成立することがあります。例えば (フランス - パリ) + ロンドン = イギリスとか、(女王 - 女性) + 男 = 王 などの関係性がWord2Vecの潜在空間の中で計算できることが示されたのです。このような特徴を持った埋め込み手法を応用し、例えば文書の分類やレコメンデーションなどへの活用が行われています。また、私も以前Nikkei BPさんとの分析企画で使ったように、データ分析における応用も行われています。

このような埋め込み技術の発展はあらゆる分野で起こっています。例えば音楽関連のAI開発を手掛けている弊社Qosmoでも基本的な音楽の特徴表現モデルを使って入力データをベクトル化した上で、曲中に使われている楽器のタグ付けやBPMの推定を行ったりすることで、ゼロからモデルを学習させるよりも大幅に効率よく精度を高めたりということを頻繁に行っています。更に先日のブログ記事でも紹介したように、この技術を応用して脳波の特徴表現モデル化を行うことで、逆に脳波から被験者が何を見ているのかを予測することにも成功した例があります。

昨年2021年にOpenAI社からCLIPという表現技術が公開されたことは、2022に入ってから起こった一連の画像生成AI革命の基礎にもなりました。汎用的な事前学習モデルがいわば「ミドルウェア」のような存在となって、より具体的なアプリケーションを下支えするアプローチが確立されつつあります。このようにゼロから学習するのではなく、用途に応じて事前学習モデルを使い、より幅広いデータから学んだ汎用的事前学習モデルを追加のデータでファインチューングする「転移学習」等の手法はここのところAIの発展を大幅に加速させています。

このような技術を通じて、人間が漠然と持っている感覚知がモデル化され、明確な正解が存在しないような課題に対してAIの応用が成立していく事例は他にも多数出てくるでしょう。今回私達が取り組んだ映像・音楽のモデリングにおいても、音楽ビデオという特定のカテゴリーの学習データにもとづいていながら、はじめに示したビデオにあるように、劇やホームビデオ、レース動画等非常に幅広い種類の動画に有効な候補曲を選択してくれることは作っている私達にとっても、意外性の大きな結果であり、今回のプロジェクトは答えのない問題に対する解決を提供するという点において、AIのモデル懐の広さを感じさせてくれる好例になったと思います。

この記事が気に入ったらサポートをしてみませんか?