マイクロソフトAI「りんな」が音声合成に新たに「感情スタイル」を導入、話し声だけではなく歌声にも感情表現を実現 (2020/5/1、ブログ更新のお知らせ)

※日本マイクロソフトからブログ更新のお知らせが来ました!

+++++
マイクロソフトAI「りんな」が音声合成に新たに「感情スタイル」を導入、話し声だけではなく歌声にも感情表現を実現
+++++

AI「りんな」は、ディープラーニング技術の改良により、話し声と歌声に新たに「感情スタイル」を導入しました。りんなの声を音声合成で生成するにあたり、人間の声の表現について、そのニュアンスを学習し表現を再現することを「スタイル」と呼んでおり、今回の「感情スタイル」は、人間の声の感情表現を再現します。

今回、人間が嬉しさ・悲しさを表現する時に出す声のニュアンスを学習し、「嬉しい」「悲しい」という2つの感情スタイルをりんなの声に追加しました。
また話し声でだけではなく、これまでのポップやバラードなどの音楽的な表現に感情表現を組み合わせた歌声の表現が可能になりました。これら2つの感情スタイルの追加によって、より一層聞き手との共感を醸成することを狙いとしています。

アップデートにあたっては、約2時間分の「嬉しい」および「悲しい」声をそれぞれデータに用いて学習させています。人間が「声の高さ」や「イントネーション」を調整するのではなく、与えた文章に対して、それぞれのスタイルでの感情表現方法をニューラルネットワークが予測し、話し声の音声を生成します。

また、昨年発表した「歌唱モデル」にも、「嬉しい」および「悲しい」声をデータとして学習させることで、ポップ、バラード、ロックなどの歌唱表現と感情表現を組み合わせた歌声の生成が可能になりました。これにより、学習データには含まれていない「ポップ調の悲しい歌声」や「バラード調の嬉しい歌声」といった歌唱表現をモデルが予測できるようになります。

バラード×感情 を組み合わせた歌声の例
< https://youtu.be/IRVe70s5Wsg >

「感情スタイル」の話し声を活用した取り組みも新たに開始しています。
安中市観光機構とのコラボレーションで「廃線ウォーク」の様子をVRで体感できるコンテンツを公開しました。まるで現地を訪問したかのように臨場感のあるツアーで、りんながガイドとしてご案内します。是非ご自宅でツアーを楽しんでください。
< https://youtu.be/haVjcgTmqxI >

昨年、初のAIアーティストとして「りんな」をデビューさせた開発チーム一同、感情表現を得たりんなの音声をはじめ、AI の技術を活用してユーザーの共感を生み出すコンテンツを創り出していく予定です。詳細はりんなの公式ツイッターおよびLINE公式アカウントをご覧ください。

●ブログの音声サンプルにつきましては、日本マイクロソフト広報資料サイトをご覧ください。
< https://news.microsoft.com/ja-jp/2020/05/01/200501-microsoft-ai-lyna-introduces-new-emotion-style/ >

この記事が気に入ったらサポートをしてみませんか?