AIは国民的ヒット曲を作ることができるのか

中村ひろき@エンタメ屋さん

2019年1月15日 00:36

先日、Twitterでこんなつぶやきを見つけた。

多くの人が音楽を聞くときに感じている当たり前の感覚のような気がした。
ファンがアーティストのことならなんでも知りたいのは昔から変わらない。

この感覚って、今後音楽分野にAIが活用される上でとても面白い研究対象になるような気がした。

「機械がつくったものが人間を感動させるなんて絶対ムリだ！」

と決めつけるのはあまりにも短絡的だ。

この問題を考えることは人間とAIの境界を考えることに繋がるし、もしかしたらその境界を溶かす可能性をも秘めているかもしれない。

そう考えると無性にワクワクした。

そこから発想を広げていく中で、実際に手を動かす前に考えたことを記録しておこうと思いこの記事を書くことにした。

まだまだ拙い知識と解釈ですが、興味の分野が近い人はコメントやTwitterなどで意見・感想いただければ幸いです。

INDEX
■AI×音楽の今
■音楽制作の行程ごとにみるAIの適正
■AI作曲の現在地
■AIが国民的ヒット曲を生み出すには？
■「ヒット曲」に必要なもの
■「音楽」以外に必要な「ビジュアル」と「背景」
■「リアル」と「バーチャル」の区別がつかなくなった時代に国民的AIアーティストは生まれる

人工知能ブームが続いている。

2015年にGoogle傘下のDeepMindが作った人工知能「AlphaGo」が囲碁で人間のプロ棋士に勝利したころから急激に話題になった。
その後、加速度的なスピードで社会実装が実現している最中だ。

話題になり始めたころよく耳にした「AIは人間を超えるのか？」みたいなオカルト話も、さすがに時間が経って少しずつ収まってきたような気がする。

まだそんな話をしている人たちも一部にはいるけれど、社会課題の解決を大きく進めるテクノロジーであることは今や多くの人たちにとって疑いのない事実だろう。

そんな人工知能がクリエイティブ分野でも大きく可能性を広げている。

写真や映像、デザインなどの視覚分野では今まで人間が手で頑張っていた作業を自動でやってくれる「adobe sensei」が登場したり、AIが作った小説が日経新聞主催のコンテストを通過したりといったことが現実に起こっている。

画像や動画などと比べて扱うデータ量が少なくフォーマットが決まっている音楽分野では、人工知能はすでに実用の域に達していると言っていい。

今日はそんな音楽分野における人工知能のお話。

AI×音楽の今

「AI作曲」の事例は既に実験例がたくさんある。

2016年9月にはすでにソニーコンピュータサイエンス研究所が人工知能を使って作曲したビートルズ風の音楽をYouTubeで公開している。

こっちはAI作曲ツール「Amper Music」の作った曲を元に、Taryn Southernというミュージシャンが歌ったもの。

他にも、DTMの分野では「iZOTOPE neutron」や「LANDR」など、EQ・コンプレッサーなどの調整系Plug-inが販売されている。

この辺りの事例は「音楽 AI」とかでググるとクサるほど出てくる。
人工知能の音楽分野への応用は現在進行形で進んでいることがわかるし、これからもどんどん進んでいくのは間違いない。

この記事では「AI作曲」の現在地を確かめ、更なる可能性を探ると同時に、「AIを使って国民的ヒット曲を生み出す方法」を考えてみようと思う。

音楽制作の行程ごとにみるAIの適正

まずはAI作曲の現在地について。
先の動画でわかるように、AI作曲は一定の精度で実現している。

AIがコンテンツを生成する上で得意なことは
「事例から特徴量を見つけ出し、パターン認識をした上でそのパターンに各種パラメータを調整してアウトプットを生み出すこと」だ。

では、音楽制作の行程についてこの流れに当てはめて考えてみることで、現段階で理論上どこまで実現できるものなのか考えてみようと思う。

音楽を創るには大きく「作曲」と「編曲」の行程がある。

■作曲
まず「作曲」について考えてみよう。
音楽の中でもいわゆるポピュラーミュージックに絞った場合、「12音階」「リズム」「コード進行」の3つが決まれば最低限の骨組みが完成する。

ここについてはDeepLearningが得意なパターン認識を過去の曲に対して進めることで、自動生成するアルゴリズムを組み上げることが比較的容易に可能だろう。

■編曲
次に各楽器のアレンジを施す「編曲」について考える。

アレンジで使う楽器は大きく「リズムパート」「メロディパート」「伴奏パート」の3つ。

リズムパートは名前の通り「リズム」のみ考えればいい。
DTMをやる方はドラムをMIDIで打ち込んで小節ごとにコピーして使い回した経験があるはずだ。
多分AIってああいう作業の効率化が一番得意なやつのはず。

メロディパート（ギターやピアノのリフとかソロ）はもう少し複雑。
「コード進行」を前提として認識しながら「メロディ」と「リズム」のパターンを作ることになる。
複雑ではあるが作曲行程と同じ内容で可能だ。

おそらく一番難しいのが伴奏パート。
メロディ楽器のバッキングはコード進行に沿った和音なので、単音を並べるよりもパターンが多くなる。
とはいえ、パターンが多くなればその分がんばって計算すればいいのが人工知能。
MIDIデータとかをたくさん学習させれば解決する話だろう。

AI作曲の現在地

楽器によっては12音階に収まらない奏法（ギターのチョーキングなど）があったりもする。
でも、それもすでにPlug-In音源などでMIDIを打ち込めばそれっぽい演奏にしてくれる技術がある。

そいつらが解決してくれることを考えれば編曲も作曲と同じように、それぞれの楽器を「コード進行」に合わせて「12音階」と「リズム」を決めるパターンの分析だと思って問題ないだろう。

というわけでだいぶ荒くはあるが、
作曲/編曲のどちらの行程も膨大なパターンから人間が心地よいと感じるものを選択するという作業の繰り返しであることを確認した。

パターン認識を踏まえた選択は人工知能が得意とする作業であることを考えると、作曲についての本質的な部分はほとんどAIに置き換わっていることがわかる。

であれば、残りの微妙な精度の問題は間違いなくアルゴリズムの進歩によって解決できるようになるだろう。

AIが国民的ヒット曲を生み出すには？

AI作曲の精度がどんどん上がってくるとなると、人間がそれを使って何をしたいかという「目的」が重要になってくる。

例えば「なんとなく流しておいても違和感がない音楽を作る」ということであれば、先の動画でも十分に達成している。

誰かのこだわりを反映することのない、映像やイベントのBGMなどに使えるクオリティであれば実用段階に届いている。

では、「国民的ヒット曲を生み出す」ことを目的にした場合はどうだろうか。

ヒット曲を創り出すには、創られた曲によって多くの人間に感動を届ける必要がある。

前の動画を見る限り、この研究の延長で多くの人を感動させられるような曲が生まれるイメージが僕には持てなかった。根本的に人の心を揺さぶるための要素が欠けているように感じる。

そもそも、音楽における「人の心を揺さぶるための要素」ってなんだろう？

「ヒット曲」に必要なもの

音楽における人の心を揺さぶるための要素を3つ仮定してみた。
「音楽」「ビジュアル」「背景」だ。
ビジュアルと背景は「人格」と言ってしまってもいい。

純粋な曲の力だけで国民的なヒットを飛ばした人って正直あまり思いつかない。
というよりはそう定義するための判断材料がないといった方が正しいだろうか。

ほとんどの場合いい曲や声がフックになって、その人が「どんな人なのか」みたいな方向に話題が膨らんでブームになることが多いような気がする。

「苦労して育ててもらったお母さんへの恩返しに歌ったの曲」

とか

「制服姿の爽やか系ガールズバンドが歌う卒業ソング」

ってイメージしやすい。

フックになる部分が曲とかではなくいきなり奇抜なところなこともある。
「一番脱げるシンガーソングライター」の藤田恵名さんとかはわかりやすい例かなと。

多くの人が感動する「音楽」「ビジュアル」「背景」の3つの要素を作り出すことがAIがヒット曲を作る条件、というのが現時点での僕の仮説だ。

「音楽」以外に必要な「ビジュアル」と「背景」

というわけで、AIがヒット曲を作り上げるためには音楽だけではなく「ビジュアル」と「背景」が必要だということになった。

「ビジュアル」について、実在しない人間の顔を創り上げるプロジェクトは色んなところで行われている。
こちらに関しては早々にクリアできるだろう。

「背景」についてはどうだろうか。
おそらく不可能ではないが、3つの中でいちばん難しくなるだろう。

というのも、「音楽」と「ビジュアル」に関してはある程度決まった形への標準化が可能ですが、「背景」については現時点での標準化されたフォーマットがないのだ。

Wikipediaを元に様々なヒットアーティストのデータが標準化されたデータベースを作るような作業が必要になる。
一定の手間はかかるものの、そのデータベースを学習した人工知能が感動する背景を抜き出すことは可能だろう。

「リアル」と「バーチャル」の区別がつかなくなった時代に国民的AIアーティストは生まれる

3つの要素が揃ったAIアーティストが生み出されると、
もはやそのアーティストが現実に存在するのかバーチャルの世界のものなのかは関係がなくなる。

最初からリアルには存在しないにも関わらず、
画面越しでは人間と全く区別がつかないようにインタビューで受け答えをしたりライブ配信を行ったり、
実際のライブではホログラムを使ってあたかもその場にいるように見せることができるバーチャルアーティスト。

よく考えたら去年流行ったVTuberってそういう流れの過渡期なのかもしれない。
あれが人間並にリアルになって、受け応えができるようになった（実はここが一番難しいかもしれないが）ものと考えるとわかりやすい。

ヒットのためだけにデータから作り出された、実態はないが人間と区別のつかないAIアーティストが果たして全国民に受け入れられる時代はやってくるのか。

そんな社会実験には非常に興味をそそられる。

AI作曲については定期的にその時点での限界を確かめるために、
実際に作品を発表するようなプロジェクトにしていきたいと思ってます。

同じような興味を持ってるアーティスト・AIエンジニアの方々はぜひ連絡くださいm(_ _)m

※補足

今回の話は人間のアーティストの歴史を踏まえた上で、「ヒットを生み出すためにAIが人間を真似して人間を感動させる」ことを前提としています。

「ヒットを生み出すためにAIがAIとして人間を感動させる」ことがもし可能なのだとしたら、今回の話以外にもヒットを生み出す可能性が生まれることになります。

そうなると間違いなくイノベーションですね。

引き続きそんな方向も模索していこうと思います。

↓↓↓よかったらフォローお願いします↓↓↓
note ： @hiro0614
Twitter： @hiro_9yards

この記事が気に入ったらサポートをしてみませんか？