見出し画像

Amazon Pollyのスタンダード、Neural、そしてNewscasterのTTS(読み上げ機能)を比較

こんにちは、Choimirai Schoolのサンミンです。

1.  はじめに

Amazon Pollyは、文章をリアルな音声に変換するサービスです。Amazon Pollyは既に人と区別がつかないレベルだったのですが、更に①Neural Text to Speech(NTTS)と②コンテンツに合わせてより自然な音声合成が出来るサービスを発表しました。

②については、まずニュースをより自然に読むオプション(Newscaster)を追加。

2.  NTTSとNewscaster

今回のノートでは既存のスタンダードとNTTS、そしてNewscasterのバージョンを比較します。

NTTSに対応しているのは11の声です。

■UK英語(3): Amy, Emma and Brian.
■US英語(8): Ivy, Joanna, Kendra, Kimberly, Salli, Joey, Justin and Matthew.

この中で、Newscasterに対応しているのは、MatthewとJoannaの2つ。読み上げてもらうのは、こちらのパラグラフです。

Indonesia made a stunning announcement on April 29 that it will relocate its capital from Jakarta. The decision validates decades of warnings about the city's catastrophic flood risk due to sinking land and rising seas. While Jakarta is especially vulnerable to the threat of rising seas, it serves as a profound wake-up call for hundreds of major cities, Washington, D.C., included.
In making his decision, Indonesian President Joko Widodo said that the move is necessary, given that the city can no longer support its massive population in the face of environmental threats, as well as concerns of traffic congestion and water shortages. Surely at the top of his concerns is the fact that the city is sinking, a phenomenon known as subsidence. In the past 30 years, Jakarta sank more than 10 feet — a problem only made worse as the world's great ice sheets melt.

3.  Matthew

▶︎Standard

▶︎Neural

スタンダードだけでも十分だったと思ってたのが、Neuralを使うと声の精度がより人に近いことが分かります。

▶︎Newscaster

Newscasterを利用するためには SSMLでコンテンツの種別を指定する必要があります。Neuralと比べると記事を読んでもらう時は "Newscaster" の方がより話の内容が伝わる気がします。読み上げのスピードはNTTSより若干早いです。

4.  Joanna

▶︎Standard

▶︎Neural

▶︎Newscaster

5.  Amazon PollyとGoogle WaveNetの比較

▶︎Amazon PollyのNewscaster

▶︎WaveNet

Newscaster版と比べると①発音はもちろん、②モノトーンで③段落の区別なども不自然なところがあります。例えば、Newscaster版では Senators Want To Protect User's Information のあと、少し間を置いてから However, that message did little to assure lawmakers. と続きますが、WaveNetでは間を置かず、すぐ次のセンテンスが始まっています。

また、引用している箇所もNewscasterの方がより分かりやすいと思います。

6.  まとめ

音声読み上げ機能は今後も進化を続けると思います。今まで「多読 PRO」ではTTS(Text to Speech)のツールとしてグーグルのWaveNetを導入。

①記事のテキストを読み上げてもらう
②録音した音源をSoundCloudシェア

しかし、今回Amazon Pollyの発表を受け、「WaveNet」から「Polly」へと変更します。


この記事が気に入ったらサポートをしてみませんか?