見出し画像

Polly と Alexa で使う SSML まとめ

Polly と Alexa の音素チューニングする時に使うSSMLをまとめました。
コピペしながら使っています。

SSML 拡張テキスト定義

<speak> テキスト </speak>

読み方・アクセント修正

<phoneme alphabet="x-amazon-pron-kana" ph="ア'ト">あと</phoneme>

話す速さ

<prosody rate="x-slow"> テキスト </prosody>
<prosody rate="110%"> テキスト </prosody>
・x-slow、slow、medium、fast、x-fast
・n%:音声の速さをパーセンテージで指定。(最小値 20%)

声の高さ

<prosody pitch="x-high"> テキスト </prosody>
<prosody pitch="+10%"> テキスト </prosody>
・x-low、low、medium、high、x-high
: 高さを定義済みの値に設定
・+n%: 高さを上げます。例:+10%、+5%(Max +50%)
・-n%: 高さを下げます。例:-10%、-20%(Min -33.3%)

声の大きさ

<prosody volume="x-loud"> テキスト </prosody>
<prosody volume="+3dB"> テキスト </prosody>
・silent、x-soft、soft、medium、loud、x-loud: 音量を一定の値に設定
・+ndB: 音量 Up(+6dBでおよそ2倍。最大値は+4.08dB)
・-ndB: 音量 Down

オーディオファイルの再生

<audiosrc="soundbank://soundlibrary/transportation/amzn_sfx_car_accelerate_01"  />
すぐに使える効果音は サウンドライブラリ に用意されています

感情

<amazon:emotion name="excited" intensity="low"> テキスト </amazon:emotion>
<amazon:emotion name="disappointed" intensity="low"> テキスト </amazon:emotion>

・name:"excited" , "disappointed"
・intensity:"medium" ,  "low" , "high"

休止

<break time="3s"/>
・時間:Max 10s 時間の単位(s or ms)を含める
・none: 休止せず。出力される休止(句点の後の休止など)を削除するために使用
・x-weak: 休止は非出力(noneと同じ)
・weak: 隣り合った単語が、読点が1つ入っている場合のように処理
・medium: 隣り合った単語が、読点が1つ入っている場合のように処理
・strong: センテンスに休止を追加
・x-strong: 段落の休止を追加(pタグと同じ)

・<p> テキスト </p>
タグの前後にextra-strongと同じ休止を追加。は、pauseに<break strength="x-strong"/>を指定した場合と同じです。

強調

<emphasis level="strong"> テキスト </emphasis>
・strong: 音量を上げ、話す速度を遅く。より大きな声、ゆっくりになります。
・moderate: 音量を上げ、話す速度を遅く。strongより控えめになります。levelを指定しなかった場合のデフォルトとして使用。
・reduced: 音量を下げ、話す速度を速くします。音声は、柔らかく、早口になります。

テキストの意図解釈

<say-as interpret-as="cardinal"> テキスト </say-as>
・characters、spell-out
: 文字ごとに発音
・cardinal、number: 値を基数として解釈
・ordinal: 値を順序数として解釈
・digits: 数字ごとに別々に発音
・fraction: 値を分数として解釈します。常分数(3/20など)と帯分数(1+1/2など)に対して機能
・unit: 値を測定値として解釈します。値は、数値または分数のいずれかの後に単位が続く(単位の前にスペースを入れない)もののほか、単位だけも可能です。
・date: 値を日付として解釈します。形式はformatアトリビュートで指定します。
・time: 1'21"などの値を、分と秒で表した期間として解釈します。
・telephone: 値を7桁または10桁の電話番号として解釈します。この設定では、内線番号を処理することもできます(例:2025551212x345)。
・address: 値を住所の一部として解釈します。
・interjection: 値を間投詞として解釈します。Alexaは、このテキストをより感情豊かに話します。最適な結果を得るには、サポートされる間投詞だけを使用し、それぞれのspeechconを休止で囲んでください。例:<say-as ・・interpret-as="interjection">わおぅ。</say-as>。Speechconは、以下にリストされた言語でサポートされます。
・expletive: タグで囲まれた内容を「ピーという音」で消します。

発音良化

<lang xml:lang="fr-FR"> Paris  </lang>
ja-JP
de-DE
en-AU
en-CA
en-GB
en-IN
en-US
es-ES
es-MX
es-US
fr-CA
fr-FR
hi-IN
it-IT
pt-BR





この記事が気に入ったらサポートをしてみませんか?