【2024年】実際に使用している合成音声サービス(日本語、多言語)
ここ数年の合成音声(TTS:Text to Speech)技術進歩はめざましいものがあります。
弊社のeラーニング教材制作においても、合成音声を使用して納品する案件が多くなってきました。
今回は、2024年現在、弊社で実際に納品物として使用している合成音声サービスを紹介します。
2024年現在の使用ソフト
日本語:VOICEPEAK(株式会社AHS)
外国語:Natural Readers
合成音声は安いのか?
プロジェクト全体でみると…
制作会社の立場でいうと…
安いかどうかよりも
その他合成音声サービス・ソフトウェア
Google Text-to-Speech AI
ブラウザ搭載のSpeech Synthesis API
AITalk(株式会社エーアイ)
Read Speaker(HOYA株式会社)
EmotiVoice(オープンソース)
さいごに
2024年現在の使用ソフト
日本語:VOICEPEAK(株式会社AHS)
https://www.ah-soft.com/voice/6nare/
日本語の合成音声、いろいろ使ってきましたが、VOICEPEAKが発売されてからは、基本これを使っています。
ソフトウェアとして簡潔で使いやすい
日本語としてとても自然で、調整もできる
買い切りで安価
商用利用不可のソフトウェアは多数ある中、商用利用が可能で、かつ安価!
商用サービスだと、サブスクや従量課金が多い中、これはありがたいです。
外国語:Natural Readers
https://www.naturalreaders.com/commercial.html
英語を主とした外国語に関しては、良質なサービスが多数ありますが、最近はNatural ReadersのCommercialライセンスを契約して使用しています。
日本語以外のナレーション音声は、スタジオ録音するにしても高額になりがちなので「日本語版だけナレーター、英語版は合成音声」といった使い分けはかなり前からありました。
合成音声は安いのか?
合成音声について、よく言われる/聞かれることがあります。
結論からいうと、弊社からの制作費用としては、以下のとおりです。
日本語なら、ナレーターによるスタジオ録音とほぼ同額です
外国語だと、合成音声のほうが安価になることが多いです
プロジェクト全体でみると…
プロジェクト全体としては、ナレーション録音のために関係者のスケジュールを調整し、時間も拘束される、という人的コストまで考慮すると、制作費が同じでも、合成音声のほうが安価といえるかもしれません。
制作会社の立場でいうと…
正直、スタジオ録音の数倍くらいは、音声の制作に工数がかかります。
※ スタジオやナレーターにお支払いしていた費用を内部で消費しています。
ただ、それよりも「修正ができてしまう」がために、修正にかなり工数をとられます。
もちろん読み間違いの修正はするのですが「イントネーション」の修正をやりはじめると、地獄のスパイラルに陥ります。
弊社で合成音声を要望される場合は「機械音声なので、多少のイントネーションの不自然さは許容してください」とあらかじめ念押しさせていただいております。
最近は、合成音声を耳にする機会も多いため、すんなり理解していただけるようになっています。
安いかどうかよりも
制作の立場としては、安いかどうかよりも「人間が読んだほうがよいか」「合成音声を作成したほうがよいか」で選んでいただければと思います。
その他合成音声サービス・ソフトウェア
最後に、上で紹介した以外に、弊社の業務で使用、あるいは具体的に導入検討したことがあるサービスを列挙しておきます
Google Text-to-Speech AI
https://cloud.google.com/text-to-speech?hl=ja
リアルタイムに合成する必要があり、アプリ等に組み込むなら、Googleのサービスが使いやすいです。
日本語の読み上げはいまいちです。
ブラウザ搭載のSpeech Synthesis API
https://caniuse.com/speech-synthesis
意外と知られていませんが、ブラウザで動作するコンテンツであれば、ブラウザの機能でリアルタイムに合成音声を生成し再生できます。
AITalk(株式会社エーアイ)
自然な日本語音声の読み上げは、こちらのサービスがおそらく最高品質だと思います。
単体のソフトウェアやAPIによる生成など多数のライセンス形態があります。
Read Speaker(HOYA株式会社)
AITalkと同程度に、日本語の読み上が非常に自然で最高品質です。
こちらも多数のライセンス形態があります。
EmotiVoice(オープンソース)
https://github.com/netease-youdao/EmotiVoice
まだ注目しているという段階で実務利用はしていませんが、2023年11月に発表されたばかりの、感情表現豊かなオープンソースの合成音声エンジンです。言語は、英語と中国語のみ。
happiness(幸せ)、excitement(興奮)、sadness(悲しい)、anger(怒り)など、感情の指定をすることで、感情をこめて?読み上げてくれます。
さいごに
合成音声に限らず「eラーニングに音声を入れたい」などのご用命がありましたら、ぜひご相談ください。