見出し画像

「人を楽しませる音声合成」という新たな世界へ

こんにちは、RevComm広報です!
弊社はVoice(声)×Communicationを軸とした事業展開をしており、法人向け第一弾サービスとして音声認識AI電話MiiTel(ミーテル)を提供しています。そのレブコムメンバーで、リサーチエンジニアの加藤が筆頭著者となったジャーナル論文が先日出版されました。執筆開始から一年かけてのお披露目です。オープンアクセスなので、どなたでも無料でご覧になれます。

著書名:"Modeling of Rakugo Speech and Its Limitations: Toward Speech Synthesis That Entertains Audiences"

学術的な内容かつ英語なので少し難しく見えるかもしれませんが、内容としては「人を楽しませる音声合成」の実現に向けて、「落語」の音声合成を作って評価したという論文になります。
落語のテキスト等*を入れると、AIが落語独特の話し方を再現して、落語を演じてくれるものです。
*本論文では「発音」+その他の情報

まずは、こちらの音声サンプル をお聞きください♪

スクリーンショット 2020-08-18 16.23.20

スクリーンショット 2020-08-18 16.23.27

音声サンプルにあるNaturalとAbS(分析再合成)は落語家の方の実際の声ですが、Tacotron以降はAIが再現した音声合成です。この出版について加藤から話を聞くまで、合成音声の落語家の音声サンプルもあまりに自然なものすぎて実際の落語家の音声を変換したものかなと思っていました(笑)でも実際は、最初の画像のテキストをAIが音声にしているんですよ。

Googleなどのスマートスピーカーを使ったことがあるとイメージが湧きやすいかもしれませんが、機械音声は何でもナレーションのように話すことが多く、内容によっては不自然な聞こえ方になることってありますよね。例えば、Siriに「面白い話をして」と言ってみると、テキストベースでは結構面白い内容でありながら、話し方がよくないために、どかんと笑えなかったりします。

そこで、加藤を筆頭著者とする研究チームは、「人を楽しませる音声合成」という新たな世界への研究をはじめました。音声を通じて人を楽しませる娯楽は数多くありますが、中でも落語は一人の話者が複数の登場人物を演じ分けるといった点などから研究がより掘り下げやすいために、落語にフォーカスを当てたそうです。

説明が長くなってしまいましたが、それを踏まえてあらためて音声サンプルを聞いていただくといかがでしょうか?AIが音声にした方の落語も、内容がしっかり頭に入ってきて笑えてしまう、つまり実際の落語家さんのお話のように楽しめてしまうのではないでしょうか。
ぜひ、この伸びゆく音声市場の動向を今後も追ってみてくださいね。加藤は今後RevCommの社員としても論文を出すことを目指しています。

■加藤のプロフィール
東京大学 大学院情報理工学系研究科 電子情報学専攻 修士課程修了。2013年から2017年まで、HOYAサービス株式会社・HOYA株式会社にて音声合成の研究開発に従事。自身が製作や品質管理に携わった音声合成製品の声は、今でも日常生活でよく耳にするという。現在、総合研究大学院大学・国立情報学研究所にて博士号取得を目指しており、研究テーマの落語音声合成はそのユニークさから耳目を集めている。RevCommには2019年11月に参画、音声合成を中心に研究開発を担当している。

■あらためて、この著書はどんな人にオススメ
専門的な論文なので、研究者ないし仕事で音声分野か隣接する業務に携わっている方

フルリモート・フルフレックスのRevComm
RevCommには加藤の他にも、ユニークなスキルやバックグラウンドをもったメンバーが多数活躍しています。面白いメンバーと共に事業を作ってくださる仲間を積極採用中です!詳しくは下記サイトをご覧ください。
・コーポレートサイトはこちら
・カルチャーが分かるWantedlyはこちら

※写真は論文より引用しております(元写真: https://www.flickr.com/photos/kwmr/23717025705)

この記事が気に入ったらサポートをしてみませんか?