【2024年】実際に使用している合成音声サービス（日本語、多言語）

2024年3月27日 11:29

ここ数年の合成音声（TTS：Text to Speech）技術進歩はめざましいものがあります。
弊社のeラーニング教材制作においても、合成音声を使用して納品する案件が多くなってきました。
今回は、2024年現在、弊社で実際に納品物として使用している合成音声サービスを紹介します。

2024年現在の使用ソフト
- 日本語：VOICEPEAK（株式会社AHS）
- 外国語：Natural Readers
合成音声は安いのか？
- プロジェクト全体でみると…
- 制作会社の立場でいうと…
- 安いかどうかよりも
その他合成音声サービス・ソフトウェア
- Google Text-to-Speech AI
- ブラウザ搭載のSpeech Synthesis API
- AITalk（株式会社エーアイ）
- Read Speaker（HOYA株式会社）
- EmotiVoice（オープンソース）
さいごに

2024年現在の使用ソフト

日本語：VOICEPEAK（株式会社AHS）

https://www.ah-soft.com/voice/6nare/

日本語の合成音声、いろいろ使ってきましたが、VOICEPEAKが発売されてからは、基本これを使っています。

ソフトウェアとして簡潔で使いやすい
日本語としてとても自然で、調整もできる
買い切りで安価

商用利用不可のソフトウェアは多数ある中、商用利用が可能で、かつ安価！
商用サービスだと、サブスクや従量課金が多い中、これはありがたいです。

外国語：Natural Readers

https://www.naturalreaders.com/commercial.html

英語を主とした外国語に関しては、良質なサービスが多数ありますが、最近はNatural ReadersのCommercialライセンスを契約して使用しています。

日本語以外のナレーション音声は、スタジオ録音するにしても高額になりがちなので「日本語版だけナレーター、英語版は合成音声」といった使い分けはかなり前からありました。

合成音声は安いのか？

合成音声について、よく言われる／聞かれることがあります。

合成音声のほうが安いよね？

いいよ、合成音声で。（そのほうが安いでしょ）

結論からいうと、弊社からの制作費用としては、以下のとおりです。

日本語なら、ナレーターによるスタジオ録音とほぼ同額です
外国語だと、合成音声のほうが安価になることが多いです

プロジェクト全体でみると…

プロジェクト全体としては、ナレーション録音のために関係者のスケジュールを調整し、時間も拘束される、という人的コストまで考慮すると、制作費が同じでも、合成音声のほうが安価といえるかもしれません。

制作会社の立場でいうと…

正直、スタジオ録音の数倍くらいは、音声の制作に工数がかかります。
※ スタジオやナレーターにお支払いしていた費用を内部で消費しています。

ただ、それよりも「修正ができてしまう」がために、修正にかなり工数をとられます。
もちろん読み間違いの修正はするのですが「イントネーション」の修正をやりはじめると、地獄のスパイラルに陥ります。

弊社で合成音声を要望される場合は「機械音声なので、多少のイントネーションの不自然さは許容してください」とあらかじめ念押しさせていただいております。
最近は、合成音声を耳にする機会も多いため、すんなり理解していただけるようになっています。

安いかどうかよりも

制作の立場としては、安いかどうかよりも「人間が読んだほうがよいか」「合成音声を作成したほうがよいか」で選んでいただければと思います。

その他合成音声サービス・ソフトウェア

最後に、上で紹介した以外に、弊社の業務で使用、あるいは具体的に導入検討したことがあるサービスを列挙しておきます

Google Text-to-Speech AI

https://cloud.google.com/text-to-speech?hl=ja

リアルタイムに合成する必要があり、アプリ等に組み込むなら、Googleのサービスが使いやすいです。
日本語の読み上げはいまいちです。

ブラウザ搭載のSpeech Synthesis API

https://caniuse.com/speech-synthesis

意外と知られていませんが、ブラウザで動作するコンテンツであれば、ブラウザの機能でリアルタイムに合成音声を生成し再生できます。

AITalk（株式会社エーアイ）

https://www.ai-j.jp/

自然な日本語音声の読み上げは、こちらのサービスがおそらく最高品質だと思います。
単体のソフトウェアやAPIによる生成など多数のライセンス形態があります。

Read Speaker（HOYA株式会社）

https://readspeaker.jp/

AITalkと同程度に、日本語の読み上が非常に自然で最高品質です。
こちらも多数のライセンス形態があります。

EmotiVoice（オープンソース）

https://github.com/netease-youdao/EmotiVoice

まだ注目しているという段階で実務利用はしていませんが、2023年11月に発表されたばかりの、感情表現豊かなオープンソースの合成音声エンジンです。言語は、英語と中国語のみ。
happiness（幸せ）、excitement（興奮）、sadness（悲しい）、anger（怒り）など、感情の指定をすることで、感情をこめて？読み上げてくれます。

さいごに

合成音声に限らず「eラーニングに音声を入れたい」などのご用命がありましたら、ぜひご相談ください。

この記事が参加している募集

#企業のnote

with note pro

15,211件