ハイクオリティの合成音声ーー「最新合成音声技術の利用方法」を考える

Screenless Media Lab.ウィークリー・リポート
2021.2/18 TBSラジオ『Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、様々な合成歌声・音声技術の紹介と、それらの利用方法について考えたいと思います。

◾VOCALOIDのボイスバンクオーディション

ここ数年の技術発展が著しい歌声合成技術と合成音声技術に関しては、当ラボでも何度も取り上げています。そんな中、初音ミクで有名な歌声音声技術「VOCALOID」が新たな声データ=ボイスバンクを募るオーディションを開催しています。

「VOCALOID」はヤマハが2003年に開発した歌声合成プログラムで、編集ソフトと声のもとが収録されたボイスバンクで構成され、歌詞とメロディを入力することで歌声が合成されるというものです。現在、音楽SNSアプリ「nana」を通したユーザーの歌声を募集しており(2022年2月28日まで)、グランプリに選出された人の声がボイスバンクとして新たなVOCALOIDの声になるというものです。音源の一般公募は10年ぶりとのことで、歌声合成業界が盛り上がっています。

◾より流暢な日本語合成音声技術の登場

一方、著しい発展が生じている合成音声技術にも、新たなサービスが登場しています。2022年3月に発売が予定されている「VOICEPEAK」という合成音声システムは、テキスト入力すると流暢な日本語を7人の声から選んで発話させることができます。もちろん、喜怒哀楽の感情パラメーターや発話速度も操作可能であり、商業施設やウェブサービスなど、幅広い活用が考えられています。

無論、読み上げるだけであればスマホやPCでも可能ですが、現状では機械的な音声感は拭えず、人間性を感じる水準とは言えません。一方、昨今はオーディオブックのように、プロのナレーターや声優が書籍を読み上げるサービスも展開しています。その中間に、今回紹介したような有料で自分に適した読み上げを実行するサービスが位置付けられるでしょう。

また、英語においては(もともとの音声データが膨大なこともあり)日本語以上に流暢な合成音声を、海外のIT企業が多数開発していることが知られています。中でもSonanticという会社が2022年のバレンタインデーに公開した動画では、女性の声はすべて合成音声を使用しているのですが、人間の声とほとんど見分けがつかないほどです。感情や抑揚だけでなく、呼吸や溜息、間といった非言語表現の再現が可能になっています。

このように発達するサービスを、一般ユーザーはどのように活用すべきでしょうか。たくさんのことが考えられます。小説や書籍を音で聞いたり、移動中にニュース記事や、学術論文をより流暢な日本語で聞くことも可能です。文字を読むのと音で聞くのでは内容の感じ方に変化が生じますが、音といっても、感情や抑揚でも同じく感じ方は変化します。また語学学習などの場面では、テキストを合成音声で発話させ、同時にシャドーイングすることで語学力の向上も期待できるでしょう。

歌声合成技術や音声合成技術は、まだまだ発展の余地がある領域です。個人のニーズに合わせた音声サービスの利用が求められるでしょう。


この記事が気に入ったらサポートをしてみませんか?