続々登場する音の生成AIに対して、声優は自らデジタルコピーをつくる――「AIと人間の声」の最前線

2024.4/19 TBSラジオ『Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、続々と登場する音の生成AIと、人間の雇用に関する話題をご紹介します。

◾続々登場する「音の生成AI」

当ラボで何度も取り上げている音声生成AIと音楽生成AIですが、昨今も新たなツールが続々と登場しています。

画像編集で有名なアドビは2024年2月28日、生成AIを利用した音楽生成・編集ツール「Project Music GenAI Control」を発表しました(残念ながら、現時点では一般公開はしていません)。このツール、機能としては、テキストを入力することで音楽を生成できるもので、数秒以内で生成できるものの、それ自体としては目新しいものではありません。

しかしこのツールの特徴は、生成した音楽を、ツール内ですぐに「編集」し、テンポの変更や繰り返しのループやフェードアウト等の調整ができる点にあります。アドビといえば画像編集の「Photoshop」が有名ですが、アドビは音楽においても、画像編集と同様、細かな調整をツール内で簡単に操作可能にすることを目的にしています。生成AIがすごいとは知っていても、すぐに使える、簡単に使えることが普及の鍵であるならば、このツールの一般公開は(おそらく有料ユーザーに限定されると思われますが)、生成AIの普及を促進すると考えられます。

次に、画像生成AIの「Stable Diffusion」で有名となったオープンソースAI企業のStability AIが、2024年4月3日、音楽生成AI「Stable Audio 2.0」(2023年8月に登場したVer.1.0からのバージョンアップ)を発表しました。こちらはウェブサイトで一般公開されています。

このツールもテキストから音楽を生成するのはもちろん、テキスト以外に、自分の声をアップロードすると、自分の声に合わせたサウンドや楽曲を生成するという、驚きの機能が特徴です。また著作権侵害を防止するため、アップロードされる音声が著作権を侵害していないかどうかを認識する技術を搭載しています。

他にも以前から話題の、歌詞を入力するだけで作曲と同時にボーカルも生成する「suno」。さらに、そのsuno以上の精度とも言われる「Sonauto」というアプリなど、様々なAIサービスが登場しています。

◾合成音声にも参入するOpenAI

一方合成音声の分野では、ChatGPTの開発元であるOpenAIが2024年3月29日、15秒の音声サンプルから合成音声を生成するAIモデル「Voice Engine」を、限定的ではありますが発表しています。この分野は当ラボが紹介してきた「Eleven Labs」等の競合がいますが、ChatGPTと組み合わせて、親が子供に自分の声で物語を読み聞かせしたり、ChatGPTとの会話を行うことが可能となります。もちろん、感情的な音声や、母語以外の言葉でも流暢に話すなど、昨今の合成音声AIと同様の機能を搭載しています。

現在は「信頼できるパートナー」にのみ技術提供を行っており、パートナーはなりすまし禁止などのポリシーに同意しているとのことです。影響力が大きいOpenAIだからこそ、悪用を懸念し、最初は提供相手を限定しているものと思われます。


◾AIは声の仕事を奪うのか

このように最新のAIの登場をみて気になるのは、やはり音に関わる人間の仕事(雇用)でしょう。今回は、英「ガーディアン」誌が、300作以上のゲームの声などを演じてきた声優の米シシー・ジョーンズ氏にインタビューした内容を紹介します。

当ラボでも以前紹介したように、アメリカの声優は自分の声を勝手にAIに学習されて使われる「声の複製」を認める内容が契約書に挿入されるケースがありました。特にアメリカでは、映画やテレビの声優は再放送等で追加報酬がありますが、ゲーム声優は最初の収録以外での収入はなく、声の権利保護は急務の課題です。

そこでジョーンズ氏は、同僚と共にカリフォルニアに「Morpheme」というAIスタートアップを立ち上げます。このスタートアップでは、声優の同意を得た上で声のデジタルコピーを作成。それをゲームやアニメで利用し、収入を得るというビジネスモデルです。つまり、企業に声を盗まれるなら、自分たちで「優秀な」デジタルコピーをつくって売ろうという、ある意味で「先手を打った」ビジネスだと言えるのではないでしょうか(もちろん、声優はやめたいといえばデジタルコピーの提供は行われません)。

一方、このようなビジネスが可能になるのは、それだけ合成音声技術のレベルが高いからであり、上記のデジタルコピー技術がどこまで声優の声を保護できるかはわかりません。わずか数十秒で声のコピーができる時代に、人の技術とAIの技術が競うことになるのか、協業できるのか。アメリカのゲーム声優をめぐる労働環境は現在、契約内容を含めて試行錯誤中であり、技術と労働、契約など、様々な面で最前線の課題であると言えるでしょう。そしてこのような動きは当然、形は違えど日本にも影響を及ぼすことでしょう。

この記事が気に入ったらサポートをしてみませんか?