2022年のトレンドは音声領域にもーー「音声生成AI」の紹介

2022.12/30 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、2022年に大きな話題となった生成系AIについて、音声領域から考えたいと思います。

◾○○生成AIの大流行

2022年のひとつのトレンドとして、「○○生成AI」が流行しました(ジェネレーティブAIとも)。夏頃にMidjourneyやStable Diffusionといった画像生成AIが話題になり、また11月末には、文章を生成する「ChatGPT」が、その高い精度から注目を集めています。

このChatGPTを公開した研究組織の「OpenAI」は、イーロン・マスクが設立者の一人に名を連ねていることで有名ですが、実は以前も紹介したように、2020年4月に音楽制作システム「Jukebox」を公開しています。

このJukeboxは、120万の楽曲を細かく学習しており、歌手とジャンルを選択し、歌詞を入力するだけで、歌声まで自動で生成するものです。とはいえ、人が驚くレベルではあるものの、完成度では十分とは言い難いものでした。

他にも、AIが自動的に作曲を行うといったニュースや、また2022年2月に、フリー素材を利用してAIがサウンドトラックを作成する「AI Music」をAppleが買収した、というニュースがあるなど、音楽の方面ではこれまでも生成系AIは存在し、当ラボも随時紹介をしてきました。

◾音声領域でも登場する生成系AI

そんな中、新たな音声系の生成AIが誕生しています。例えばグーグルの研究者が2022年9月に発表した「オーディオLM(AudioLM)」は、数秒間の録音データを与えるだけで、続きを自動で生成することができるAIです。

AudioLMは、実際のピアノの音を数秒間聞かせると、自動でピアノの続きを生成します。その音には違和感がまったくなく、人間では区別がつかないほどです。また、AudioLMは音楽だけでなく、人の声なども続きを生成します。言葉の意味については不十分な点があるものの、その人特有の抑揚やアクセントなど、音のレベルについては非常に精度が高く、驚くべきものです。

ただ、これだけ精度の高いものには、悪用の危険性が考えられます。そこで研究者たちは、人間には区別がつかなくとも、機械ではAudioLMが生成した音であることを検出する機能も作成しています。また、AudioLMは研究用であり、現時点では一般に公開する予定はないということです。

さらに、先に述べた画像生成AIのStable Diffusionの公開元である「stability.ai」は、「Harmonai」というプロジェクトにも関わっています。そしてこのHarmonaiから、新たにオーディオ生成AIである「Dance Diffusion」も発表されています。こちらは現時点では、画像生成AIほどの精度はなく、まだまだ音の完成度が低いということですが、同様の試みは他にも行われています。

このように、音声領域においても、生成系AIの発展が人々を驚かせています。しかし、画像生成AIの登場で議論になった、生成されたものがあまりにもアーティストの作品と酷似している場合の著作権の問題や、生成作品が多すぎて人間の作品と分けるべきなのか等、画像や文章で議論されるものと同様の問題が、音声分野でも生じる可能性があります。2023年以降も、こうした分野への注目は続いていくものと思われます。

この記事が気に入ったらサポートをしてみませんか?