歌以外でも進む合成音声ーー「落語の合成音声化」を考える

放送の様子はこちら(下記サイトでは音声配信も行っています)。
「歌以外でも進む合成音声~「落語の合成音声化」を考える」(Screenless Media Lab.ウィークリー・リポート)
2020.5/8 TBSラジオ『Session-22』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は合成音声化した落語について紹介します。

◾落語を合成音声化する


当ラボでも最近論じることが多い合成音声ですが、これまでも、非常に自然な歌声を生成する合成音声などについて伝えてきました。今回は、日本の伝統話芸である「落語」をAIで合成音声化する研究について紹介したいと思います。

この研究は、総合研究大学院大学の研究者が2019年11月に発表した「Modeling of Rakugo Speech and Its Various Speaking Styles: Toward Speech Synthesis That Entertains Audiences」(落語の話し方とその多様な話し方のモデリング:聴衆を楽しませる音声合成を目指して)という論文で行われています。実際の落語音源を分析し、その音声を再現しようというものです。

またこの論文は、AIに関する論文などの紹介を行う「アイブン」というサイトでも詳しく紹介されています(こちらのサイトでは、AIに関する論文が詳しく紹介されており、興味深いものが多くあります)。

落語は基本的に口伝で伝わり、噺家がそれぞれ声等の特徴づけを行います。多様な要素のある落語ですが、既存の録音音源は雑音が多いため機械学習に適さず、研究ではプロの落語家である柳家三三(さんざ)さんを収録ブースに呼んで収録しました。演目は、6分から47分までのものなど、合わせて25本、収録時間は13.2時間に及びました。

この音源から、その内容を書き起こししたり、様々なモデルを用いて分析し、柳家三三さんが話す内容をAIが合成音声で再現しました。そして実際に被験者に音声を聞いてもらい、ナチュラルさや内容をどのくらい理解できたか、またピッチやアクセントにおかしなところはなかったか、等の観点からリスニングテストを行いました。すると、合成音声はプロには及ばないものの、被験者を楽しませるという観点では、プロと大差なかったという結果が出ています。

◾自然な音声、加工した音声

こうした研究からもわかる通り、聴くだけであれば、すでに合成音声は人間に近いものになっています。もちろん、依然としてプロには及ばないものの、今後はピッチやアクセントなどがより自然になるでしょう。その一方で、例えばある音源を、すでに亡くなった噺家さん風に変化させること等もできるかもしれません(無論、それが落語ファンを喜ばすものかそうでないかについては、議論があるでしょう)。

近年では、合成音声で本を読ませるといったサービスも現れています。より人間に近い読み方(つまり自然化)も喜ばれますが、他方で論文のような「情報のインプット」を目指す際には、息継ぎなしに文章を高速で読み上げるなど、人間ではできないような声が有用な場合もあります。

どちらの音声も今後求められるようになるかと思われますが、そうした研究のためにも、もともとの私たちの「声」に関する基礎研究もまた、続けられる必要があるように思われます。

この記事が気に入ったらサポートをしてみませんか?