見出し画像

「トライ&エラーの繰り返し」 〜『聴く』も選べる時代を目指す、AI音声合成サービス「カタリテ」開発裏話〜

7月14日に発表したAI音声合成サービス「カタリテ」。PKSHA Technology(以下「PKSHA」)との共同開発によって、AIが読み上げているとは思えないような自然な発音が再現された音声コンテンツを楽しむことができるようになりました。

今回は、オトバンクがなぜ音声合成サービスの開発を行ったのか、 代表取締役の久保田裕也と制作プロデューサーの伊藤誠敏にそのプロジェクトの全貌を聞きました。

なぜオトバンクはAI音声合成サービスの開発に挑んだのか?

――まず、「カタリテ」とはどんなサービスなんですか?

伊藤:人間の声をもとにしたAI音声合成サービスです。今回共同開発したPKSHAさんの独自の技術を使って、本当に人間が読んでいるような感覚に近い読み上げを目指してます。

▼「カタリテ」で制作:『AIナレータが読む、日経電子版 きょうの速報ニュース』

<特徴>
・独自の音声関連技術に強みを持つPKSHAが開発した音声合成プラットフォーム「PKSHA Phonetics(フォネティクス)」を採用。さらにオトバンクがチューニングを実施することで、より自然で聴き心地のいい音声を実現。
・PKSHAによる独自のアクセント推定技術「tdmelodic」(※)等により、一般的な音声合成ソフトウェアでは難しいアクセントの制御が可能。「tdmelodic」を導入したサービスの実用化は、今回が初の取り組みです。
※PKSHAは独自の波形特徴量生成技術「DCTTS」やアクセント推定技術「tdmelodic」を音声領域でのトップ学会の一つであるICASSPで発表するなど、音声分野にて最先端のアルゴリズムを開発しております。
詳細:https://prtimes.jp/main/html/rd/p/000000017.000022705.html

――なぜ、AI音声合成サービスを開発しようと思ったのですか?

久保田:コンテンツを楽しむときに、「読む」「見る」は非常によく浸透しています。しかし、まだまだ「聴く」という選択肢は少ない。そこで、もっと「聴くも当たり前に選べる」世の中にしたいという想いからスタートしました。

オトバンクは2004年の創業時から音声市場の成長を目指し、オーディオブックを中心に音声コンテンツの制作・配信を行ってきました。会員数も200万人を突破し、ありがたいことに急速に成長しています。

一方で、コンテンツ市場における音声コンテンツの割合はまだまだ数%です。コンテンツ市場における音声系ソフトは約6%で、さらにそのうち音楽ソフトとラジオ番組を除くと約0.1%に留まっています。
※参考:我が国のコンテンツ市場の内訳(2018年/総務省「情報通信白書」)https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r02/html/nd251910.html

今後、音声市場をさらに広げていくためには、コンテンツ数を伸ばすことが重要です。しかし、今は一作品一作品、人が読み上げて、ディレクションして、と丁寧に作っているため爆発的に増やすのは難しい。制作できる限界を見つめた時に出てきたのが、音声合成という手段です。音声合成も一部活用し、現在の高クオリティの作品群と組み合わせることで、音声化するコンテンツの選択肢をより広げていくことができるのではないかと。

一方で、人間が読み上げているものと比べると、どうしても長く聴き続けるのが難しいという課題を感じていました。弊社のニーズを考えると、より「長く聴き続けることのできる」音声にしたい。クオリティを担保しつつ、どんどんコンテンツを増やしていくにはどうすればいいのか。そこの一つの解として出てきたのがAI音声合成サービス「カタリテ」の開発でした。

このサービスを開発するには、膨大なテキストデータと膨大な音源、両方が必要です。大量のテキストと音源を使って、AIに学習をさせることができるのはオトバンクが持つ最大の強みでした。

「カタリテ」の実用化が進めば、提供できるコンテンツの幅が一気に広がりますし、「audiobook.jp」をユーザーが求めているコンテンツが必ずあるサービスにすることができます。そうやって市場が広がっていく未来を現実にしたいという気持ちでプロジェクトが始まりました。

開発はとにかくトライ&エラーの繰り返し

――「カタリテ」の開発で、印象に残っている出来事や苦労したことはなんですか?

伊藤:とにかくトライ&エラーの繰り返しだったのが印象深いです(笑)。

「カタリテ」では声優の浅野真澄さんの声を使っているのですが、収録もかなりの長丁場になりましたし、データの量もかなり膨大で。

その音を元にパークシャさんが持っている技術で合成した音声を出力するという仕組みです。私は音声への意見をさせていただいていましたが、毎回できあがったバージョンごとに「これは違和感があるのでは?」という部分を指摘し、改善を繰り返していくという作業を行ってました。

PKSHAさんと協力して、改善を繰り返すことで、少しずつ音が安定をしてきて、今回皆さんにお聞きいただけるクオリティにまで上がってきました。ただ、まだまだここからスタートしたばかりの事業ですので、これまでやってきたサイクルをまた繰り返していき、更に聴き心地を上げていくことが大切です。

久保田:今、伊藤からもありましたが、本当にトライ&エラーの繰り返しでした。「あちらを立てればこちらが立たず」みたいな感じで、たとえば音声を出力するスピードを上げれば、微妙にアクセントがブレることなどもあり。

AIなので定期的にソフトをバージョンアップして、確実に全体として改善はされるんですよね。ライブラリもアップデートされているし、出力のスピードは上がるし、読み方もなめらかになる。でも、前のバージョンで出来ていたことが一部出来なくなることもあります。

そういった点に研究開発の難しさ、大変さがあるのだと感じました。

――「カタリテ」を通して目指したい世界を教えてください。

伊藤:音声コンテンツを作るには、読み上げる原稿が必要なものも多いですから、テキストからさらにひと手間かかっているんですよね。なので、どうしても文字ベースの情報の方より時間がかかる。将来的には、音声合成によって、文字ベースの情報と遜色がないくらいのスピード感で、音声でも情報を提供できればと思いますね。

クオリティを重視したいときは役者を起用し、出すまでのスピードを優先したいときは音声合成を使うという形で役割を補完しあうことで、選択肢が広がってよりユーザーにとってもよりフレンドリーなサービスになればいいなと。

久保田:あらゆるものを音声で楽しめるようにしたいです。
音声による表現方法はいろいろあって、たとえばラジオドラマ、オーディオドラマ的な複数の人が出てくる表現豊かなコンテンツもあれば、一人で読み上げる朗読形式のコンテンツもあるし、その人の声の良さそのものがコンテンツになることもあります。

音声合成はその表現方法の一つだと思うんです。これまでのように声優さんに依頼してスタジオで制作する音声コンテンツは、今後さらに増やしていきます。それと同時にいろいろな情報を素早く提供したり、まだ音声化されていないものを音声合成で作って提供したりしながら、コンテンツ数を爆発的に増やしていき、ユーザーの皆さんにより音声コンテンツを楽しんでほしいです。

**********************

よりよく、を目指して長期間かけて開発してきたAI音声合成サービス。
今後も実証実験を続けていく予定です。

いつか「聴く」をもっと当たり前に選べるような時代にするために、これからも様々な取り組みに挑戦していきますので応援いただけましたら幸いです!

<「audiobook.jp」で配信を開始>
『日経電子版』の速報コーナーで配信された記事の一部を抽出し、その見出しから生成した音声コンテンツを、オトバンクが運営する「audiobook.jp」の聴き放題プランにて配信します。

【『AIナレータが読む、日経電子版 きょうの速報ニュース』】
・配信内容:AIナレーターのカタリテによる実証実験として、日経電子版で配信された速報ニュースの見出しを読み上げます。
・配信日:毎週月曜~金曜日の平日18時に更新します。
・配信場所:「audiobook.jp」聴き放題プランでの配信から開始。
「audiobook.jp」配信URL ※7月14日 18時から配信開始。


この記事が気に入ったらサポートをしてみませんか?