文章から音楽を生成したり、歌声から伴奏を自動で生成するAIーー「開発が続く生成系AI」の続報

2023.2/03 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、続々と登場する音声生成系AIの続報を紹介します。

◾文章指示で音を生成するAI、歌声に自動で伴奏音楽を生成するAIをグーグルが発表

2022年下半期に生じた○○系生成AIや合成音声AIの著しい発展は、2023年になって止まりません。当ラボでも、数秒間の音を聞かせるだけで続きを自動的に生成する、グーグルの「オーディオLM(AudioLM)」(一般には非公開)や、3秒の音声データから、その人の声をシミュレートできるマイクロソフトの合成音声AI「VALL-E」(こちらも非公開)等、音にまつわるAIについて紹介してきました。

そんな中、グーグルの研究開発部門であるグーグルリサーチは2023年1月26日、テキストから音を生成するAI「MusicLM」を発表しました(先に紹介したAudioLMとは異なります)。研究者によれば、28万時間分のデータセットを用いてAIを訓練したとのことです。

これは、文章で指示すると(ex.スローテンポで、ベースとドラムがリードするレゲエ曲。エレキギターのサステイン。)自動で音楽が生成されるというものです。いくつかの機能がありますが、注目すべきは、有名な絵画とその説明文を基に音楽を生成するものもあります(ex.ムンクの叫びや、ナポレオンが馬にまたがってアルプスを越える絵画等)。

また、著作権侵害といったの不正利用等を考慮し、こちらも一般公開はしていません。ただし、学習に利用したデータセットは今後の研究のために公開しています。

そんなグーグルリサーチですが、1月30日にはフランスの音響研究機関IRCAM(Institut de Recherche et Coordination Acoustique/Musique)の研究者と共同で、歌声に合わせて伴奏音楽を自動で生成するAI「SingSong」を発表しました。

研究者によれば、まず大量の音楽データをAIを用いてボーカルと楽器に分離させ、先に紹介した、音楽の続きを生成するオーディオLMの技術を利用して精度を上げたとのことです。その結果SingSongは、ボーカルの歌声を聞くだけで、自動で伴奏音を生成することが可能になりました。ちょっとした鼻歌に伴奏がついたり、クリエイターが楽曲制作の参考にすることが想定されるこのAIですが、開発した研究者は、数カ月後に一般公開したいと述べています。

ちなみに、昨今のリセッション(景気後退)で従業員の解雇が取り上げられるアメリカのテクノロジー業界ですが、グーグルの親会社アルファベットも2023年1月20日、全従業員の6%にあたる12000人の解雇を発表するなど、厳しい状況が続きます。特にグーグルは、OpenAIの開発するChatGPTといった生成系AIが、グーグルの主力である検索事業の驚異になると警戒しています。故に、人員を削減しながらも、様々なAI開発を考えていると思われます。

◾ディープフェイクボイスの懸念

このように、相次いで生成系AIが発表されていますが、当然問題も指摘されています。例えば元グーグルのエンジニア等が起業したスタートアップ「ElevenLabs」は合成音声の研究を行っていますが、1分の音声サンプルから声のクローンを作成するサービスのβ版を1月23日に公開しました。すると、アメリカの匿名掲示板(4chan)を中心に、有名女優の声でヒトラーの『我が闘争』を読み上げさせたり、また人種差別発言をさせるなど、不適切な利用が相次ぎました(いわゆるディープフェイクボイス)。

このサービスには作成者を辿れる機能がありますが、ElevenLabsはさらなる対応策として、不正利用の報告機能や、本人確認を経た有料サービスのみでの利用を近日中に実装すると発表しました。これらの対応が完璧とは言い難いように思われますが、悪用に対しては今後も対応が必要になるでしょう。


この記事が気に入ったらサポートをしてみませんか?