人間に近いAI歌声系の音声合成システムについてまとめた

2020年10月29日 15:36

■概要

歌声における音声合成の技術は「VOCALOID」の初音ミクが有名。これは15年くらい前の技術で、当時としては最先端であったが人間の声としてはまだまだ不自然で、聞くと音声合成だな、とわかるレベルである。初音ミクはキャラクターとして、その不自然さも含めて個性と捉えられ、大ヒットした。

近年ディープラーニングなどのAI技術の進化により、よりリアルな発声が可能になった。ちょうど2018年くらいから技術的なブレイクスルーが始まり、企業のラボや大学の研究室レベルでは高品質なデモが出現。2020年から2021年にかけて実際に使えるプロダクトとしてこの技術が世に出る予定。

■実際に存在するソフト、プロダクト

（※最近発表されたものでAI使用、初音ミク以降で人間の音声にごく近いものに限定しています）

▼NEUTRINO（個人開発）

https://n3utrino.work

個人開発のソフト。「AIきりたん」が有名。※AIきりたんはNEUTRINOというソフトで「東北きりたん」というキャラの音声データを使った作品、という位置付け。開発者は匿名でフリーソフトであり開発意図は判然としない。大学の研究をそのまま実装したような感じで、コマンドラインを使ったり、楽譜の制作は別ソフトで行うなど使い勝手は悪い。音声のクオリティは高く、元音声の個性がよく出ている。ぱっと聞いた感じ人が歌ったものと変わらないレベル。音声の出力にはほぼ実時間かかる。（10秒の音声だったら10秒程度計算がかかる）クラウド版も存在する。

・サンプル：

▼VOCALOID AI（ヤマハ）

https://www.yamaha.com/ja/about/ai/vocaloid_ai/
ヤマハのVOCALOIDの正常進化版。NHK「AI美空ひばり」で使われた技術。
まだ製品として世の中に出ていないため、一般の人は使えない。使い勝手などは不明。
実在の有名人をNHKの特集番組で公開するという環境のため、クオリティは図抜けている。インタビューを読むと、「AI美空ひばり」ではかなり手作業での調整が必要になった模様。
おそらく高額な機材で生成にもかなり時間がかかっていると思われる。

・サンプル：

▼CeVIO AI（テクノスピーチ）

https://www.techno-speech.com/news-20181214a

テクノスピーチは名古屋工業大学の研究室からスピンアウトして作られた企業。そのため学問レベルの技術をプロダクトに落とすペースが早い印象。
もともとCeVIOというテキストトゥスピーチと歌声の音声合成ソフトを出していたが、現在CeVIO AIという新世代のエンジンを開発中。サンプルを聞いた感じ人の歌声と変わらずかなりレベルが高い。人の癖や音痴具合まで再現している。

最近、人気Vtuberの「花譜」がこのエンジンを使用し、花譜の歌声をあえて音声合成化して「可不」という存在にし、アルバムを作るというプロジェクトを発表して話題になった。技術的には本人とそっくりにできるが、ファンのアンケート及び歌い手本人の希望を汲み、「あえて人間ぽくないチューニング」で出す予定。

https://www.itmedia.co.jp/news/articles/2010/12/news075.html

・サンプル：

▼AIりんな（マイクロソフト→rinna株式会社としてスピンアウト）

https://www.rinna.co.jp

マイクロソフトが開発している音声合成。テキストトゥスピーチと歌声、AIチャットボット全てが可能。歌声については比較的最近発表、人間の声特別がつかないくらいレベルが高い。

2020年8月にマイクロソフトから別会社としてスピンアウト
https://pc.watch.impress.co.jp/docs/news/1272135.html

・サンプル：

▼ Synthesizer V（Dreamtonics）

https://dreamtonics.com/synthesizerv/

Dreamtonics社というベンチャー企業によるソフトウェア。
DTM用途で電子楽器として発売。UIなどがかなり優れている。VSTプラグインとして使用可能。
音声についてはサンプルを聞く限りここで触れた他のものに比べると機械的で人間らしさは若干劣る。ただこの手の音声合成技術は正確に歌わせることと元の音声の個性を活かすのとパラメータ的に調整することができるため、意図的に個性を殺して楽譜の正確性を重視するように調整している可能性もある。
英語、中国語音声にも対応可能。

・デモ：

この記事が気に入ったらサポートをしてみませんか？