見出し画像

AIシンガーに関するあれこれを考える【ボカロリスナーアドベントカレンダー】

初めまして。御丹宮くるみです。
普段はバーチャルボカロリスナーと名乗ってVTuberをやっています。

ボカロリスナーアドベントカレンダー、毎日特濃の記事が投稿されていますね。煮詰まったオタクの展覧会という感じで最高です。
ということで、この記事はボカロリスナーアドベントカレンダー11日目。何の話をしよっかな~~……ボカコレ初日だからボカコレの話しようかな~~……でもボカコレの話、ボカコレ始まらないと書けなくてしんどいからな~……とか考えた結果、くるみはAIシンガーの話をしようと思います。
なぜならボカロリスナー、意外とAIシンガーに詳しくないから!!!

(くるみも詳しくないです)
(あとこの文章は12/11 23:50に書き始めています)
(間に合ってない)

行き当たりばったりで文章を書いているので読みづらいかもです。ごめんね。
ということで、ボカロリスナーアドベントカレンダー。下のカレンダーから記事一覧見られますので、他の方の記事もぜひ読んでね。

では。

歌声合成音声ってなにやねん

歌声合成音声にはものすご~~~くざっくり分けて2種類があります。「VOCALOID」と「UTAU」の違い……とかではなく。合成音声方式の違い……喉の種類のようなものが、ざっくり2種類あります。それが「波形接続型合成音声」と「AI合成音声」の2つです。両者の説明をしていきます。

【波形接続型合成音声】
録音された音声の素片を連結して合成するもの。上手く説明できないんですが…一回適当なUTAU音源をダウンロードして開いてみるとイメージ付きやすいんじゃないかな、と思います。それか自音源を作って!
言わずと知れたVOCALOIDで採用されている方式なので、ぱっとボカロって言ったときにイメージされるのはこちらなんじゃないかと思います。ただ実態としては、今波形接続型合成音声を採用してる歌声合成ソフト、めちゃくちゃ少ないです。(これに関しては後述します)

例:VOCALOID,UTAU,SynthesizerV,初音ミクNT,他色々

【AI合成音声】
厳密には更に色々あって、例えばCeVIOはHMM(隠れマルコフモデル音声合成)+worldだし(そしてHMMは波形接続でもAIでも無いやつでは?2つに分けられるとは?)、Sinsyやneutrino他はDNN(ディープニューラルネットワーク)。あとMDNとかRMDNとかなんか色々あるけどよくわからん。
ざっくりと言えば歌声をディープラーニングして歌声モデルを生成して、その歌声モデル(AI)に歌を歌わせる方式です。

ちょっと分かりやすいところだと、収録方法が全然違う。波形接続型合成音声は必要な音素を網羅した呪文を読んで収録します(少なくともUTAUはそう)(色々あると思う)
が、AI合成音声の場合はまずめちゃくちゃ歌を収録します。

めちゃくちゃ歌を収録します。

具体的には50曲くらい。

そしてそのめちゃくちゃ収録した歌にMIDIとラベル(ここからここまでがこの音素ですよ、みたいな目印。全曲・全音素ぶん)をめちゃくちゃ付けたもの、俗に言う「歌声データベース」を学習させてモデル化するわけです。

ちなみに私、御丹宮くるみも歌声データベースを配布しておりましてよく質問されたのですが、歌声データベースそのものはAI要素無い歌えません。研究目的か、もしくは歌声データベースを自力で学習してあなた好みの、自分だけのAI歌声モデルを作ろう!みたいな気の狂った遊びをする人向けだと思って下さい。

更にちなみに、CeVIOのイメージかneutrinoのイメージか、AI歌声合成は歌い方がどのライブラリも似通ったものになるっていう印象があるリスナーが多いと感じてるんですが、AI歌声合成自体にそんな特徴はありません。多分。
ただ特性上、別々の人間の歌声をキメラ的に混ぜ合わせ放題だし、元の歌声が上手い歌い方じゃないと出力も上手くならないし、元の歌声の曲数が多ければ多いほどきれいに学習されるしで、そういう(歌い方の似る)特性のある子たちは同じ歌声データが混ぜ込まれてるような気がする。知らんけど。だとすると、みんな姉妹みたいなもんってことですね。

例:neutrino,CeVIO AI,Sinsy,SynthesizerV AI,VOCALOID:AI,AIsingers,NNSVS,他色々

ボカロリスナーから見るAIシンガーの歴史

歌声合成音声の歴史の中で、これまでメジャーだったのはVOCALOID率いる波形接続型合成音声だったわけです。とはいえHMM採用のCeVIOや最初期AI歌声合成ソフトのSinsyなどは生まれていましたが、少なくとも我々、ニコニコ動画やYouTubeでボカロ曲(便宜上の表現)を聴いているボカロリスナーにとっては。
それが2020年には一変、AIシンガーの存在、そしてその凄さが市井の元へおりてくることになります。

以下、主にニコニコ動画に投稿された楽曲の面からAIシンガーの歴史(流れ)を振り返ります。ただし、ここでは技術の話は最小限に留めます。
AIシンガーの話をする話者というのは技術クラスタが圧倒的に多く、これまで上がっていたnoteやブログはほとんどが彼らによるもの。よって、なんとなくAIシンガーの話は技術面に詳しくないとしちゃいけない風潮がある気がしています。(少なくとも私はそう感じてるのでこんな注意書きを書いている次第です。)
ただ、2020年以降の時代においては一般リスナーによるAIシンガー話が加速するでしょう。加速するべきです。なぜなら先駆者たるVOCALOIDに於いても、ボカロの話をしてる人のほとんどは別にVOCALOIDの技術の話はしていないので。
ということで、言い訳タイム終わり。

2018~2019 AIシンガーブーム前夜

2018年12月初頭。テクノスピーチ(CeVIOの開発元)と名古屋工業大学(Sinsyの開発元)の共同開発として発表されたこちらのプレスリリースがTwitterを駆け巡りました。私の観測する限り、一般ボカロリスナーに「AI合成音声ってやつすごいらしいぞ!」という情報が出回った最初はここだったように思います。ちなみにこの時点でTwitter上で見られた反応で最も多かったように見えたのは「ちょっと歌が上手い人間とカラオケ来た感じ」。まだまだ耳が波形接続型合成音声に慣れきっていることと、単純にこの時点ではちょっと音が外れてるのも相まって、といった感じでしょうか。

そして1年後、2019年秋~冬にかけて話題となったのが忘れてはいけないこれ、VOCALOID:AI 美空ひばりです。
「AIでよみがえる美空ひばり」なんて世間でのAIブームに乗っかり煽るようなキャッチをしていたことや、そもそも美空ひばりさんが故人であることなどから倫理観の面でも話題になりました。
これまでの波形接続型合成音声では声は再現出来ても歌い方は再現されなかった(自力で再現する手はあるのと、sachikoに付属の専用Job Pluginとかいう特異点は置いておいて)のに対し、AIシンガーは歌い方まで再現する。先のテクノスピーチ・名古屋工業大学のプレスリリースでは、元の人間の歌い方を知らない故に目立たなかったAIシンガーの特徴がこれによって大きく表に出ることになります。
とはいえ、こちらのVOCALOID:AI美空ひばりは一般販売はされておらず、例えば美空ひばりがめちゃくちゃ小林幸子の悪口を言う曲が勝手に作られたりはしないわけです。この本人に似すぎるという特徴が大きく問題になるのは一般販売された後で……この話は後ほど拾います。

2020年 AIシンガーブーム突入

2020/2/22。NEUTRINOがリリースされ、くろ州さん投稿のAIシンガーきりたんプロモ動画がバズったことでAIシンガーは誰でも使える高品質な合成音声ソフトウェアとして日の目を浴びることになります。
NEUTRINOはこの時点でGUIが無く、musicxmlという形式の楽譜をフォルダに突っ込みbatファイルを走らせるという今となっては全く慣れ親しみのない方法で生成するしかないフリーソフトだったわけですが、それでもリリースと共に大量のカバー動画・オリジナル曲が投稿されました。なぜなら流行ってて面白そうでワクワクするから。また、東北きりたんというキャラクターが元々培っていたキャラクターとしての人気も大きかったように思います。いくらこれ以前にSinsyが誰でも使えるフリーライブラリとしてAIシンガーを出していたと言っても、ライブラリ名が「f001j_dnn_beta」じゃぶっちゃけ一般オタクに対する求心力は弱かったわけです。VOCALOIDにおいて、それまでの口のアップ等のジャケットを起用したソフトがあくまでDTMソフトとしてしか扱われなかったのに対してキャラクターボーカルシリーズ初音ミクがオタクに大ブレイクしたのと同じ構造ですね。

カバー・オリジナル入り乱れて投稿合戦が起こり、ランキングはAIきりたんが埋め尽くし、AIシンガーきりたんタグでは2020/2/22~2020/2/29の一週間で実に443件の動画が投稿されました。特に初期においては注目度が高く、どんな動画を投稿しても軒並み500再生は行くし1万くらいなら普通に越える、といった状態。さながら2007年の初音ミクのようだ、と何人もの方がツイートしているのを見かけましたね。

この3曲は私が個人的にめちゃくちゃ好きなAIシンガーきりたんのオリジナル曲です。隙を見て布教。聴いてください。

さて、そんな突然のAIシンガーきりたんブーム。その裏でニコニコ動画では、ボーカロイドとなんやかんやで縁の深いアイマス界隈に於いて一大ブームが起きていました。それがご存知「たべるんごのうた」です。

たべるんごのうたの詳細を話し始めるとさすがに脱線しすぎるので各自でニコニコ大百科あたりを読んでください。
先に書いたように、AIシンガーきりたんはフリーソフトで誰でも使えてしかも高品質です。この特性により、両者は悪魔合体を始めます。

たべるんごのうた派生動画の多くはボーカルをUTAU等の合成音声ソフトに任せていたわけですが、正直NEUTRINOは慣れればUTAUより圧倒的に簡単な上にクオリティが高く、歌が上手くて、おもしろい。東北仲間だし。ということで、これ以降AIシンガーきりたんタグはたべるんごのうたに埋め尽くされることとなり、更に初音ミクNTの発売告知を受け対象動画を合成音声ソフトウェア全般に広げたばかりのぼからんまでもがたべるんごのうたに埋め尽くされます。
ちなみに上記たべるんごのうた×AIシンガーきりたん震源地の投稿日は2020/2/29。ここまでわずか一週間の出来事です。

代表的なたべるんごのうた派生動画。再生数がエグい。
圧倒的なファン数を抱えておりニコニコ動画との相性がべらぼうに良いアイマスシーンと悪魔合体したことにより、AIシンガーきりたんは更に世に広まっていくこととなりました。だいたい夏ごろまでぼからんの上位は全てたべるんごだったような気がする。ブームが長い。

ということでだいたい夏ごろまで続いたたべるんご及びAIシンガーきりたんのブームがある程度落ち着いたころ。次のパンチがやってきます。

2020/7/22、CeVIO AIのリリース発表です。
これは先に紹介したテクノスピーチ・名古屋工業大学のプレスリリースのものの完成版。どうも作っているらしいという情報だけがあった期待のソフトウェアのリリース告知、そしてその起用ライブラリの豪華さに界隈は再び沸くこととなりました。なおここでは直接関係ないので簡易的な紹介にとどめますが、同時期にSynthesizer VがPro版をリリースしており、こちらに琴葉茜・葵がライブラリとして起用されたこと、また同じく同時期に初音ミクNTのデモバージョンが配布開始されたことなどからこの時期から界隈においても歌声合成ソフト三つ巴!的な発言が多く見られるようになりましたね。
先のNEUTRINOはGUI無しのものだったのに対し、CeVIO AIは現行CeVIOに近いGUIで操作でき、リアルタイムでの合成結果確認やピアノロールでの楽譜修正等、調声が出来る!という点も注目されていたように思います。(NEUTRINOが調声が出来ないのかというと出来ると思いますが、吐き出したwavのピッチを触るとか敢えて低音で出力した後ピッチを上げるとか逆とか、そういうNEUTRINO特有の調声方法はこれまでの波形接続合成音声の調声とかけ離れすぎており、市井にとってはNEUTRINOは調声は出来ないものだと受け取られていたように思います。)

ちなみに話が前後しますが、2020/6/3にはマイクロソフトによるAIシンガーデモが投稿されていたり

3月には中国でAIsingersという歌声合成プラットフォームが発足していたり

ビリビリ動画でこのAIsingersが24時間コメントから曲を拾って拾い続ける生配信チャンネルが始まっていたり

個人製作のAIシンガー作成環境、NNSVSが立ち上がり完全個人製作のAIシンガーが誕生したり(私、御丹宮くるみもNNSVS用音源をリリースしています)

10月末にはsynthesizerV AIのプレスリリースが来ていたり

と、AIシンガーソフトウェア自体も露出もめちゃくちゃ増えています。このへんは歌声合成技術のオタクしか追ってない部分だと思うので省きますが、めっちゃ面白いので一度見ておいてもいいと思います。

さて、話を戻してCeVIO AI。2020/10/10に、CeVIO AIから新ライブラリとして可不の発売が発表されます。


この可不、バーチャルシンガーである花譜の音楽的同位体として作成されたプロジェクトであり、非常に花譜に近い声で歌います。つまり彼女は初の国内販売される実在人間を再現するタイプのAIシンガーとなることが予定されていました。これまでリリースされていたAIシンガーは全て中の人本人の再現ではなく、中の人演じるキャラクターの歌声を再現していました。その場合どれだけ似すぎたとしてもその対象はキャラクター。中の人ではありません。
しかし、VTuber(バーチャルシンガー)の場合は少々特殊です。VTuberは中の人とVTuber、キャラクターの境界が非常にあいまいですし、大抵の場合そもそも中の人なんていない(ことになっている)のですから当然花譜はキャラクターではなく、生きている人間そのものなわけです。つまり、先のVOCALOID:AI美空ひばりの項で出していた話題がそのままここでも繰り広げられました。

こちらのVOCALOID:AI美空ひばりは一般販売はされておらず、例えば美空ひばりがめちゃくちゃ小林幸子の悪口を言う曲が勝手に作られたりはしないわけです。この本人に似すぎるという特徴が大きく問題になるのは一般販売された後で……この話は後ほど拾います。

可不の場合はこれ、できちゃいます。一般販売されるから。可不にめちゃくちゃエッチな曲を歌わせるのも自由自在なわけです。しかも、花譜はバーチャルシンガー……VTuberの中でも歌に特化した、いわば歌う為だけの人格です。歌う為だけの人格の核たる歌声を、ほぼそのまま誰でも再現できる。それに対してファン・更に本人からも不安の声が上がり、最終的にこの可不はAIシンガーであり、参照元の歌声に限りなく似せられるのにも関わらず、敢えて波形接続合成的な加工を施された状態でリリースとなることとなりました。

2020年のAIシンガー事情、だいたいこんな感じかな。
現在注目株のCeVIO AIとsynthesizerV AI来年頭リリース予定ですので、実際にリリースされるまでの動向が今後も楽しみです。

AIシンガーの未来

ここまで振り返ってくると見えてくる、AIシンガーの大きな特徴。
それはやはり、人間に似すぎていること。あるいは、人間に似すぎている……と、多くの一般ボカロファンが思ってしまっていることでしょう。

合成音声はこれまで、より人間に近づけることを目標に進んできたように思います。歌声にしろ喋り声にしろ、"声"というのは人間のもので、合成音声は人間の声の代替。であれば、より良い"声"というのは、人間に近いものなのでしょう。
しかし、AIシンガーが今年こうして非技術オタク層に広まったことで、少なくとも若いオタク層にとってはそんなことは無いのではないか、という懸念が見えてきています。彼らは可不に波形接続合成的な……「ボカロっぽい」合成結果をわざわざ求めた。それが事実です。

私自身もこれまでさんざん、人間の声は情報量が多くてしんどい、だとか、歌声に人間の喉から発するものなんていう定義は無いのだから歌声合成音声が人間を目指す必要は必ずしもない、だとか、まあ色々言ってきた身です。

VOCALOIDが出てきたとき、VOCALOIDの合成音声はキカイっぽくて気持ち悪い、と言われました。それはすべての歌声が人間と比較される前提だったから。
では、今はどうなのか。ボカロは既に広く受け入れられ、歌声は人間だけのものではなくなりました。そんな中生まれた「人間に似すぎている」AIシンガーたちは、人間と機械音声間の不気味の谷に居るような……そういう状態なのかもしれません。

今後、以前VOCALOIDがVOCALOIDとしてその地位を確立したように、AIシンガーたちもAIシンガーとしてその地位を確立していくのでしょうか。しかしながら、現状だとそれも難しいように思えてしまいます。それは前述の通り、今波形接続型合成音声を採用してる歌声合成ソフトがめちゃくちゃ少ないからです。

もはや初音ミクNTとUTAUしか波形接続合成音声採用の知名度のある歌声合成ソフトが存在しない現状。
AIシンガーが波形接続合成音声に代わって歌声合成の覇権を取るのか。それぞれ独立して歩んでいくのか。いずれ融合していくのか。
どうなるんでしょうね。

終わりに

何にしても、2020年はAIシンガー黎明期1年目。
来年は更にすごいAIシンガー黎明期が来るでしょうし、再来年は最高と言われた2020年を超えるAIシンガー黎明期が来るでしょう。
更に言えば、長い歌声の歴史から見れば、2000年代すべてが長い歌声合成黎明期なのかもしれません。

今この激動の2020年を見られていることに感謝しつつ、来年以降もAIシンガー、並びに歌声合成界隈まわりで楽しんで遊んでいくぞ~~~~~!!!と思っています。

以上、御丹宮くるみでした!!

この記事が気に入ったらサポートをしてみませんか?