テキストで指示することで多様な表現を行う生成系オーディオAIーー「Bark」の紹介

2023.4/28 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、多様な音声表現を行う生成系オーディオAIについて紹介します。

◾生成系オーディオAI「Bark」

テキストから文章を読み上げる合成音声技術として知られている技術としては、「Text-to-Speech(TTS)」がよく知られています。以前も紹介しましたが、とりわけ英語では人間の会話と見分けがつかない程、非常に高精度の合成音声を可能にします。

一方、生成系AIが大流行する中で、アメリカのオーディオAI企業「suno」が、「Bark(吠えるの意味)」という生成系オーディオモデルを発表しました。(sunoについては、HPはあるものの詳細はほとんど書かれていません)


◾Barkの機能

ソフト開発プラットフォームのGitHubにて公開されたBarkの説明によれば、Barkは「Text-Prompted Generative Audio Model(テキストプロンプトによる生成オーディオモデル)」とされています。その特徴は、昨今の生成系の要素を取り入れるとともに、スピーチ(読み上げ)に限定されない、様々な「オーディオ」を表現することができる点にあります。以下で説明します。

まず、Barkはテキストを英語や日本語といった多言語の合成音声で読み上げる機能の他、テキスト中にプロンプト、つまり指示を出すことで、読み上げの途中で「んー」といった言葉の淀みを行ったり、また[laugh]と指示すれば途中で笑うことが可能です。さらに、[man]や[woman]など、文章の前に指示を出すことで、話し手の声質等を指示することが可能です。こうした点は、ChatGPTといった生成系AIにも通じる方法でしょう。

https://user-images.githubusercontent.com/5068315/230490503-417e688d-5115-4eee-9550-b46a2b465ee3.webm

また、テキストの種類から英語や日本語、ドイツ語といった言語を指示なしに認識します。さらに興味深い点としては、テキストの途中で外国語が挿入された際は(例えばスペイン語の文章の中に英単語が挿入されている時)、母語語訛りのある外国語の発音を自動的に行います。

https://user-images.githubusercontent.com/5068315/230684752-10baadfe-1e7c-46a2-8323-43282aef2c8c.webm

Barkは音声と音楽を原理的には区別せず、文脈に合わせて時折テキストを音楽として(つまり歌として)表現することがあります。また[music]といった指示や、あるいは歌詞のまわりに「♪」マークをつけることで、歌であると認識させることが可能とのことです。

https://user-images.githubusercontent.com/5068315/230684766-97f5ea23-ad99-473c-924b-66b6fab24289.webm

このように、Barkは非常に多種多様な音声表現を、まさに「生成」します。それ故に、Barkは単なるテキスト読み上げではなく、「生成系オーディオAI」と呼べるでしょう。

◾生成系オーディオAIの課題

Barkを利用した人たちのレポートによれば、やはりデータ量の問題か、日本語の読み上げについてはイントネーション等に違和感を感じるとのことです。とはいえ、生成系AIの発達スピードを考えれば、そう遠くない時期に違和感のないレベルで改良が行われると考えられます。もちろん、Barkだけでなく、ビッグテックを含めた様々な企業が同様のサービスを開発・公開するとも考えられます。

同時に危惧すべきは、やはり悪用の問題です。Barkは今のところ、声についてはBarkで提供した声に限定していると説明していますが、この点については他の音声技術と同じく、引き続き注意する必要があるでしょう。

この記事が気に入ったらサポートをしてみませんか?