
Amazon Pollyのスタンダード、Neural、そしてNewscasterのTTS(読み上げ機能)を比較

こんにちは、Choimirai Schoolのサンミンです。

1.  はじめに

Amazon Pollyは、文章をリアルな音声に変換するサービスです。Amazon Pollyは既に人と区別がつかないレベルだったのですが、更に①Neural Text to Speech(NTTS)と②コンテンツに合わせてより自然な音声合成が出来るサービスを発表しました。


2.  NTTSとNewscaster



■UK英語(3): Amy, Emma and Brian.
■US英語(8): Ivy, Joanna, Kendra, Kimberly, Salli, Joey, Justin and Matthew.


Indonesia made a stunning announcement on April 29 that it will relocate its capital from Jakarta. The decision validates decades of warnings about the city's catastrophic flood risk due to sinking land and rising seas. While Jakarta is especially vulnerable to the threat of rising seas, it serves as a profound wake-up call for hundreds of major cities, Washington, D.C., included.
In making his decision, Indonesian President Joko Widodo said that the move is necessary, given that the city can no longer support its massive population in the face of environmental threats, as well as concerns of traffic congestion and water shortages. Surely at the top of his concerns is the fact that the city is sinking, a phenomenon known as subsidence. In the past 30 years, Jakarta sank more than 10 feet — a problem only made worse as the world's great ice sheets melt.

3.  Matthew





Newscasterを利用するためには SSMLでコンテンツの種別を指定する必要があります。Neuralと比べると記事を読んでもらう時は "Newscaster" の方がより話の内容が伝わる気がします。読み上げのスピードはNTTSより若干早いです。

4.  Joanna




5.  Amazon PollyとGoogle WaveNetの比較

▶︎Amazon PollyのNewscaster


Newscaster版と比べると①発音はもちろん、②モノトーンで③段落の区別なども不自然なところがあります。例えば、Newscaster版では Senators Want To Protect User's Information のあと、少し間を置いてから However, that message did little to assure lawmakers. と続きますが、WaveNetでは間を置かず、すぐ次のセンテンスが始まっています。


6.  まとめ

音声読み上げ機能は今後も進化を続けると思います。今まで「多読 PRO」ではTTS(Text to Speech)のツールとしてグーグルのWaveNetを導入。


しかし、今回Amazon Pollyの発表を受け、「WaveNet」から「Polly」へと変更します。
