比較歌声合成ソフト論 第5回「合成方式」

第5回になりました。

歌声合成ソフトはそれぞれどうやって歌声を合成しているのかという話になります。その前にまず、歌声合成の方法をいくつかまとめてみましょう。

1.波形接続

波形接続による歌声合成とは「音声を録音した波形を切り貼りして歌声を作り上げる」ことを言います。「う」「た」「ご」「え」「せ」「い」を録音して、これを切り貼りして「うたごえごうせい」と出力させる方法。

2.HMM/DNN

この講義ではまとめて「学習系」と呼ぼうかと思います。元となる人の歌い方を学習して、その特徴をまねるように合成する方法です。

主にはこの二つ。ところで、いろいろ知ってる方は「TD-PSOLAは?」とか「ソースフィルタは?」みたいなことを思ったかもしれません。このあたりは「実際にピッチを変えたり長さを変えたり、データを音声にするときの技術」だといえるでしょう。私は情報処理の専門家ではさっぱりないので詳しいことは理解できてないが、要するに「波形接続で歌声合成を作ろう。サンプルの引き延ばしやピッチ変更の実際の処理はTD-PSOLA法を使うぞ」とか「HMMで歌声合成作ろう。データから音声への出力時にはソースフィルタを使うかな」とかそういうことです。おそらく。

文系らしく書くなら「歌声合成の基本方針と実施手段」という感じかと思われます。基本方針は波形接続で手段としてはTD-PSOLA法を用いますとか。UTAUを見ると多少わかりやすくなるかもしれません。UTAUは基本的に波形接続系歌声合成です。しかしUTAUはエンジンを取り換えることができるんですね。そして、取り換えたエンジンによっては実施手段がフェイズボコーダーになったりTD-PSOLA法になったりするのです。

ただし、実際にはこれらは高度に専門技術的な内容になるため積極的にユーザーに対して特に明示されないことも多いし、ユーザーとしても特に知らなくても使えるので結果はっきりとどの合成方式なのかわからない歌声合成が多いです。

聞けば何となく波形接続なのか学習系なのか程度わかるようになるんですが、少なくとも絶対これですとは私もよく言わない。

現在多いのはどちらかというと波形接続系です。これはUTAUの影響も大いにあるでしょう。UTAUとそれに連なるUTAU音源利用可能な歌声合成は要するにすべて波形接続系なので。ただ、これから学習系が増えてくる予感がするわけです。

最近になって機械学習・AIあたりの発展が一気に波に乗ってきて(表に出てくるようになって)急に増えてきました。

表に出てきている音声は少ないんですが、東北大学さんのボイスメイドプロジェクト、HOYAさんのVoiceText、マイクロソフトのりんななど「無調声で人間のように "勝手に表現して" 歌う」歌声合成が出てきました。一般に下りてきてないので私も触ったことはないですが、本当に欲しいのでくださいってずっと言ってるんですがまぁもらえないですよね。

この分野まだまだ進みます。

波形接続と学習系はプロモーションのレベルで結構な違いが出ます。波形接続系は「中の人」と声質にこだわるプロモーションをやりがちです。逆に学習系はそこら辺を聞かない代わりに「微調声で上手に聞こえる」とか「無調声で表現して歌う」など「調声少なくていい」という方面でプロモーションしがちです。

これはもちろんそれぞれの得意不得意の結果ではあります。波形接続は波形を切り貼りしているので中の人の声質が反映させやすく「中の人の波形を使っている」という部分の価値を感じる人もいるあたりがあるのでそこらへんは推しやすいですが、学習系は比較的平均声になりやすく中の人の声質が表に出にくいというところと学習系だから調声しなくても人間っぽいというところを推しやすいんですね。

そうするとその辺それぞれに価値を感じる人が集まりやすいですよね。実際のところ、VOCALOID/UTAUユーザーとCeVIOユーザーでは前者のほうが調声TIPSツイートをやる人の割合が大きい(ように感じる)し、CeVIOの人で声質がどうこう言ってる人はほとんど見たことないしという風に見える。

先ほど「人間っぽい」といいましたが、人間っぽさの感じ方もそこそこ分かれるように思います。実はほとんど同じ調声の場合、VOCALOIDのほうが人間っぽく聞こえる人とCeVIOのほうが人間っぽく聞こえる人がいるんです。ほとんど同じ調声の音声がそもそもほとんどないですが、今度実験してみましょう。

今回はこの辺で。次回は「キャラクター性」です。

この記事が気に入ったらサポートをしてみませんか?