機械と人間の良好な関係とはーー「合成音声と人の声」を考える

2022.10/28 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、テレビやラジオでも進む合成音声と、人間の声の関係について考えたいと思います。

◾NHKで進む「AIアナウンサー」

昨今の高度化した合成音声技術については、当ラボでも度々伝えています。ところで、最近はテレビやラジオにおいても、AIアナウンサーが原稿を読み上げるサービスがはじまっています。

NHKでは2022年7月の参院選において、同局のアナウンサーの発話を学習した「AIアナウンサー」が深夜帯の票読みで利用されました。ラジオでは9月、NHK静岡放送局が昼の気象予報を、文節やスピード等を調整したAIアナウンサーの声で読み上げています(NHKでは新潟放送局に続き全国2番目ということです)。

さらに、和歌山市の「エフエム和歌山」では、Amazon(Amazon Web Service:AWS)のテキスト読み上げサービス「Amazon Polly」を利用し、ニュースや天気予報の音声配信を、2017年7月から開始しています。Amazon Pollyは安価であり、同時にエフエム和歌山が開発したシステムを用いて音声を独自に調節。ディレクターやアナウンサーなしの放送を可能にするとともに、読み上げられる音声は多言語に翻訳して放送することも可能です。

これらの流れの背景には、主に2つの理由が考えられます。
ひとつは、合成音声技術の発展により、違和感のない発話が可能になったこと。もうひとつは、人件費削減や、特に深夜の時間帯の労働をAIに置き換えることです。もちろん、AIアナウンサーと名乗る(キャラ化する)にせよそうでないにせよ、合成音声はこれまでもこれからも、様々な領域で利用されるでしょう。(ただし、AIアナウンサーのキャラ化がジェンダー等の観点から問題視されることもあります。)

◾合成音声と人間の関係

一方で気になるのは、機械と人間の声の「差異」、あるいは声優やアナウンサーなど、声を利用した労働の未来についてです。

合成音声には初音ミクなど、合成音ならではの楽しみがあり、また息切れなく続く声、眠気を誘う声といった「人間を超えた声」の合成など、新たな可能性の追求が考えられています。

では、人間の声は合成音声に取って代わるのでしょうか?そうではありません。例えばNTTテクノクロスは、特定の声優の声を収集・分析することで、声優の声を忠実に再現し、感情等の調節も可能な合成音声サービス「FutureVoice Crayon」を提供しています。

https://www.futurevoice.jp/lineup/futurevoice-actors/

こうしたサービスは技術に注目が集まりがちですが、逆に言えば、ベースになるのはやはり「人の声」です。誰の声でも良いのではなく、特徴のある声や、聞き馴染みのある声を、可能な限り様々な用途で利用するという意味で、機械と人間の共存関係が構築されているとの捉えられます。特に人気の声優やアナウンサーの声は、様々な領域で用いられ、同時に深夜のニュース読みなど、人間の負担を免除することにもなります。

もちろん、「特定の人の声」が重視されるということは、「人間の声市場」の競争も激しくなり、相対的に人間の声の仕事が減少することも考えられます。この点には注意が必要ですが、声を利用したサービスが、時と場所を選ばず、これまで以上に広がっていくことも事実でしょう。いずれにせよ、音声市場が拡張されていく中で、技術と人間のより良い関係性の構築を考えていくことも必要でしょう。

この記事が気に入ったらサポートをしてみませんか?