3秒分の音声データからそっくりの音声を合成ーー「VALL-E」とは何か

2023.1/13 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、2023年に早速発表された最新の合成音声システムについて紹介します。

◾合成音声システム「VALL-E」

近年の合成音声技術の発展は目を見張るものがありますが、2023年も早速、突出した合成音声技術が発表されました。

マイクロソフトの研究者が2023年1月5日に、合成音声AI「VALL-E」を発表しました。VALL-Eは、わずか3秒の音声データからその人の声をシミュレートできるもので、非常にレベルの高いAIシステムです。

開発にあたっては、2022年10月にMeta(旧Facebook)の研究者が開発した、音声を圧縮する技術を利用して、3秒のデータを細かな音の要素に分解するといった方法を採用しています。また、同じくMetaが作成した、7000人以上の英語話者の音声約6万時間の音声ライブラリデータを用いてAIの学習を行っています。

VALL-Eは3秒の音データがあれば、その人に非常に似た言葉を発音させることができるだけでなく、音声に眠さや怒りといった感情を調整させることも可能です。さらにサンプル音声の音響環境の模倣も可能であり、サンプルが電話から発せられている音声であれば、同じく電話から発せられている音声の合成が可能となっています。

研究者によれば、この合成音声システムでは、テキストを用意すれば、声の持ち主が発言したことのない内容であれ、まるでその人が話しているかのような合成音声を生成することが可能です。

ただし、AIの学習データが英語に限定されていることから、現在のところ対応言語は英語のみとなっています。(もちろん、学習用音声データの偏り、つまりジェンダーの偏りや地域ごとにアクセントが異なる発音など、学習データにも課題はあります)

また、こうしたシステムは当然のことながらなりすましによる犯罪目的の合成等への転用の可能性が指摘できます。このことを懸念して、現状ではこのシステムは一般公開されていません。

今後は、音声の合成にあたって当事者に同意を取ったり、また音声がVALL-Eで合成されたものかどうかを判別する検出するシステムの必要性も述べています。また今後は開発にあたって、マイクロソフトのAI原則に沿ったものにするとも述べています。(アカウンタビリティ、包括性、信頼性と安全性、公平性、透明性、プライバシーとセキュリティ等)

◾合成音声システムの発展

当ラボでも以前、コエステーションという合成音声システムについて紹介しました。こちらは、AIに学習させるデータ、つまり声の量が多ければ多いほど合成音声の精度が上がるもので、現在は有名人の合成音声を利用したサービス等も展開しています。

また合成音声ではありませんが、2022年には、googleがAudioLMという音声生成AIを発表しました(こちらも一般公開はされていません)。こちらは音声や音楽を生成するもので、レベルの高さが注目されています。

このように、ビジネスとしてもすでに展開している合成音声ですが、生成系AIが注目される中、合成音声についても非常に高レベルのものが登場しています。2023年も、技術の発展から目が離せません。

この記事が気に入ったらサポートをしてみませんか?