声だけで画像を動かす技術にボイスクローン技術ーー「最新技術と音声」を考える

2022.11/04 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、音声による加工技術とその問題について紹介します。

◾音声だけでオンライン会議の画像を動かせる「xpression camera」

オンライン会議が定着した社会の問題のひとつに、カメラのON/OFFが取り上げられます。会議にはカメラをONにすべきという圧力があり、「ZOOM疲れ」等も指摘されています。

これ対して、バーチャルカメラアプリ「xpression camera(エクスプレッションカメラ)」は、ディープフェイクに用いられる技術を利用し、最初に画像を設定すれば、本来の自分ではなく、画像を動かすことが可能になります。

例えば、スーツ姿の自分の写真を最初に設定しておけば、会議中はパジャマを着ていても、口や体の動きをリアルタイムで分析し、スーツ姿の画像自分が、体や口を動かすという技術です。

しかしこの技術、結局はカメラの前に座り、自分の動きをコンピュータに読み込ませる必要があることが欠点でした。そこでこのアプリの運営会社は2022年10月、「xpression camera Voice2Face」という新たな機能をリリースしました。この機能、声だけで画像を動かすことを可能とするもので、カメラ前に座らなくとも、家事をしながらでもビデオチャットが可能になるというものです。もちろんzoomだけでなく、「Teams」や「Google Meet」でも可能とのことです。

こうした機能については、その有用性は別にせよ、音声からでもディープフェイクが可能になるという意味において、悪用の懸念が想定されます。このアプリについては、ロゴの挿入やアカウント登録の必須などの対応をしていますが、いずれにせよ、技術の社会への用いられ方が議論される必要があります。

◾ボイスクローン技術でフェイクインタビューコンテンツを生成

音声を用いた加工=フェイク技術として、昨今は別の事例も散見されます。「podcast.ai」というサイトは、有名人の声や内容=文章すべてをAIが作成したポッドキャスト番組を掲載しています。podcast.aiでは、アメリカのコメディアンで、自身の配信するポッドキャスト番組が世界一位のダウンロード数を獲得したこともあるジョー・ローガン氏が、故スティーブ・ジョブズ氏にインタビューするという架空の番組が配信されています。ですが、二人の声も内容も、AIが作成したものです。

このサイトの運営元「play.ht」は、音声合成AIの開発を行う企業ですが、ローガン氏やジョブズ氏の遺族に許可を取っているかは不明です。また、昨今は有名人の声を合成音声化し、YouTubeの実況動画の音声に利用するなど、様々に利用されていますが、それらが許可を取っているとは思われません。

昨今は画像生成AIの著作権が議論になっていますが、AIで合成された声(ボイスクローン技術)の権利についても、許可を得た企業のもの以外については、曖昧な領域があると言えるでしょう。

ディープフェイク技術が社会に登場してから数年が経ちますが、こうした技術への懸念や規制をめぐる議論は常に存在しつつも、明確な基準設定がなされないままの状態です。安易な法規制は表現の萎縮を招く一方、ディープフェイクは社会に実害を与えているのも事実です。これらについては、法的な議論と同時に、社会的な合意を形成するための議論も必要になるでしょう。


この記事が気に入ったらサポートをしてみませんか?