見出し画像

Polly と Alexa で使う SSML まとめ

飯澤高志 / モノコト創り

Polly と Alexa の音素チューニングする時に使うSSMLをまとめました。
コピペしながら使っています。

SSML 拡張テキスト定義

<speak> テキスト </speak>

読み方・アクセント修正

<phoneme alphabet="x-amazon-pron-kana" ph="ア'ト">あと</phoneme>

話す速さ

<prosody rate="x-slow"> テキスト </prosody>
<prosody rate="110%"> テキスト </prosody>
・x-slow、slow、medium、fast、x-fast
・n%:音声の速さをパーセンテージで指定。(最小値 20%)

声の高さ

<prosody pitch="x-high"> テキスト </prosody>
<prosody pitch="+10%"> テキスト </prosody>
・x-low、low、medium、high、x-high
: 高さを定義済みの値に設定
・+n%: 高さを上げます。例:+10%、+5%(Max +50%)
・-n%: 高さを下げます。例:-10%、-20%(Min -33.3%)

声の大きさ

<prosody volume="x-loud"> テキスト </prosody>
<prosody volume="+3dB"> テキスト </prosody>
・silent、x-soft、soft、medium、loud、x-loud: 音量を一定の値に設定
・+ndB: 音量 Up(+6dBでおよそ2倍。最大値は+4.08dB)
・-ndB: 音量 Down

オーディオファイルの再生

<audiosrc="soundbank://soundlibrary/transportation/amzn_sfx_car_accelerate_01"  />
すぐに使える効果音は サウンドライブラリ に用意されています

感情

<amazon:emotion name="excited" intensity="low"> テキスト </amazon:emotion>
<amazon:emotion name="disappointed" intensity="low"> テキスト </amazon:emotion>

・name:"excited" , "disappointed"
・intensity:"medium" ,  "low" , "high"

休止

<break time="3s"/>
・時間:Max 10s 時間の単位(s or ms)を含める
・none: 休止せず。出力される休止(句点の後の休止など)を削除するために使用
・x-weak: 休止は非出力(noneと同じ)
・weak: 隣り合った単語が、読点が1つ入っている場合のように処理
・medium: 隣り合った単語が、読点が1つ入っている場合のように処理
・strong: センテンスに休止を追加
・x-strong: 段落の休止を追加(pタグと同じ)

・<p> テキスト </p>
タグの前後にextra-strongと同じ休止を追加。は、pauseに<break strength="x-strong"/>を指定した場合と同じです。

強調

<emphasis level="strong"> テキスト </emphasis>
・strong: 音量を上げ、話す速度を遅く。より大きな声、ゆっくりになります。
・moderate: 音量を上げ、話す速度を遅く。strongより控えめになります。levelを指定しなかった場合のデフォルトとして使用。
・reduced: 音量を下げ、話す速度を速くします。音声は、柔らかく、早口になります。

テキストの意図解釈

<say-as interpret-as="cardinal"> テキスト </say-as>
・characters、spell-out
: 文字ごとに発音
・cardinal、number: 値を基数として解釈
・ordinal: 値を順序数として解釈
・digits: 数字ごとに別々に発音
・fraction: 値を分数として解釈します。常分数(3/20など)と帯分数(1+1/2など)に対して機能
・unit: 値を測定値として解釈します。値は、数値または分数のいずれかの後に単位が続く(単位の前にスペースを入れない)もののほか、単位だけも可能です。
・date: 値を日付として解釈します。形式はformatアトリビュートで指定します。
・time: 1'21"などの値を、分と秒で表した期間として解釈します。
・telephone: 値を7桁または10桁の電話番号として解釈します。この設定では、内線番号を処理することもできます(例:2025551212x345)。
・address: 値を住所の一部として解釈します。
・interjection: 値を間投詞として解釈します。Alexaは、このテキストをより感情豊かに話します。最適な結果を得るには、サポートされる間投詞だけを使用し、それぞれのspeechconを休止で囲んでください。例:<say-as ・・interpret-as="interjection">わおぅ。</say-as>。Speechconは、以下にリストされた言語でサポートされます。
・expletive: タグで囲まれた内容を「ピーという音」で消します。

発音良化

<lang xml:lang="fr-FR"> Paris  </lang>
ja-JP
de-DE
en-AU
en-CA
en-GB
en-IN
en-US
es-ES
es-MX
es-US
fr-CA
fr-FR
hi-IN
it-IT
pt-BR





この記事が気に入ったら、サポートをしてみませんか?
気軽にクリエイターの支援と、記事のオススメができます!
飯澤高志 / モノコト創り
生粋の"ものづくり大好き人間"です。仕事に関係ある/なしに創作物や普段の気付きを徒然なるままに記事にしていきます。