見出し画像

声を再現する技術 〜音声合成と声質変換の違い〜

声を再現するというニーズ

最近は、声を再現したいという相談も増えてきました。

おそらく以前からニーズはあったと思うのですが、技術の発展によっていろんな場で活用・議論されるようになり、多くの方の目に止まるようになってきたのではないかと思います。

声の再現といっても、どういった場面で利用されるのかピンとこない方もいるかもしれませんが、代表的な例だと以下のようなケースです。

・亡くなった方の声でライブをしたい
・亡くなった家族の声を聞きたい
・声を失った方が自分の声を取り戻したい
・自分の声を遺しておきたい

こうやって並べてみると、声が再現できることで魅力的で価値のあるサービスが生まれそうですよね。

故人を再現することについては、以前の記事でも書いたので、興味ある方はぜひそちらも読んでみてください。
https://note.com/voiceware/n/ne23089c5d24c

さて、そんな声を再現する技術ですが、一体どんな技術があるのでしょうか?
前の記事は、こういう技術がありますよという名前の紹介だけでしたが、もう少し詳しく説明します。

声を再現する技術

AI技術を使って声を再現するには、主に2つの方法があります。

1. 音声合成
2. 声質変換

音声合成の方が聞き馴染みがあるかと思います。紅白歌合戦に出演したAI美空ひばりも音声合成技術を利用しています。

さて、この2つの技術は何が違うのか?
一言で表すと、インプットに文字情報を利用しているか、音声情報を利用しているか、という点です。

音声合成は、文字情報から特定の人が話したような音声に変えます。英語では、Text-to-Speechと呼ばれています。

それに対して、声質変換は、Speech-to-Speechと呼ばれています。

つまり、音声から音声へと声質を他者の声に変えます。
何を話しているかというような、文字情報は必要としていません。
ボイスチェンジャーと言った方が分かり易いかもしれませんね。

それぞれの技術の特徴

特定の人の声を再現したいとなった場合、どのような点が特徴として上げられるのか。

どちらもAI技術を利用しているので、学習用の音声サンプルが必要となります。

音声合成の場合、一般的に大量の音声サンプルが必要です。
最近は、データ量もかなり少なく実現できるようになっていて、それほどクオリティが求められないケースの場合、特定の文章を数十分程度読み上げるだけで音声合成モデルが作成できたりします。
ただ、任意の文章となると、数時間分の音声サンプルは必要なので、データが大量にあることが前提となります。

音声合成の特徴として、その人特有の喋り方やクセも再現することができます。品質も高いです。

日本語だと、まだ機械っぽさがあるので合成されていることは分かりますが、英語では本人と聞き分けがつかないくらいの品質のものも存在しています。
(ただ単に私が英語ネイティブでないので、聞き取り能力が低いだけかもしれませんが・・・)

ただし、抑揚の付け方など、あらかじめパターンが決められているので、感情表現に限りがあります。


それに対して声質変換の特徴は以下の通りです。

いわゆるボイスチェンジャーなので、特定の人の声を再現するためには演じる人が必要となります。
その代わりに、演じる人の能力次第で、いろんな表現が可能になります

さらに、文字情報を必要としないので言語依存しません。
日本語しか話せない人の声で英語を喋らせる、ということも可能になります。

また、文字情報を必要とせず、声質のみを取り出してAIで学習するので、音声合成に比べると、比較的必要なデータ量が少ないといった特徴も挙げられます。

ノンパラレルと呼ばれる話者毎の対応付けを必要としない手法の場合、品質の高い手法でも数十分程度、少ないものだと数秒〜数分程度の音声サンプルがあれば再現可能です。

ただし、まだ品質が十分でなかったり、使い勝手が悪かったりで、実用レベルではないのが現状ですが、技術面はあと1,2年で解決すると期待しています。


ここまでつらつらと書いてきましたが、まとめるとこんな感じです。

音声合成の特徴
・品質が高い
・その人特有のクセも再現できる
・大量のデータが必要
・感情表現に限りがある

声質変換の特徴
・品質に課題がある
・演じる人が必要
・比較的少量のデータでOK
・表現が無限大

もし、AI技術で声の再現をしてみたいという方がいらっしゃれば、それぞれの特徴を参考に検討してみてください。


株式会社voiceware
代表取締役CEO 田村一起
http://voiceware.co.jp/

この記事が気に入ったらサポートをしてみませんか?