音声クローニング（音声クローン技術）とは？

2021年1月27日 18:57

音声クローニングとは何か？

ここ数年、「音声クローニング」という言葉をたびたび聞くようになりました。

音声クローニングとは一体何なのかと言うと、音声のクローン技術。つまり、特定の人の声を複製する技術のことです。

クローン技術と聞くと、「危険なもの」「未来の技術」という風に考える方もいるかと思いますが、音声クローニングは別に遺伝子を弄っているわけではなく、その実は音声合成技術（Speech Synthesis）のことで、既に広く使われている技術です。

音声合成とは簡単に言うと、テキスト情報を音声に変える技術ですね。
特定の人物の音声データをAI技術によって学習することで、合成された音声をその人の声色・喋り方で再現することができるようになります。

ごく最近の技術というわけでもなく、2010年代初頭頃から街中やメディアでも使われているのをよく耳にします。

音声合成がどんな技術で、どんなところで使われているかは過去のnoteを読んでみてください。

ちなみに、声の複製という意味では、声色だけを変える声質変換も音声クローニングの一部となります。したがって、音声クローニングは、音声合成と声質変換を総称した言葉と言えますね。ただ、今のところは、音声クローニングというと音声合成を指すことが多いです。

これについては私の推測ですが、デジタルヒューマンの文脈で出てきた言葉ではないかと考えています。

デジタルヒューマンとは、デジタル空間上で特定の人物（あるいは架空のキャラクター）を生成することです。

分かりやすい例だと、ディープフェイク動画があります。実際には、本人が出演しているわけではないのに、あたかも本人が喋っているように見える動画です。オバマ元大統領のディープフェイク動画を見たことがある方は多いんじゃないでしょうか？

デジタルとはいえ、まさにクローン技術のようですよね？そのため、デジタルクローンとも呼ばれています。
（デジタルクローンは人格のコピーも指しているので、ディープフェイクとは少し意味合いが違いますが。）

デジタルクローンを実現する際に、映像だけではなく、音声（声色）も複製が必要となります。

その音声を複製する技術を、音声クローニングと呼び始めたのではないかと考えています。

クローンという言葉からイメージされる通り、危険性もはらんでいます。

ディープラーニングが発達してくるにつれて、機械で人を模倣することがどんどん簡単になってきました。
音声も、5分程度の任意の音声データがあれば、その人の声を再現できるようになってきました。

つまり、誰でも簡単に声真似ができるようになっているということです。

悪用されると、なりすましによって詐欺が行われるようなケースも起こり得ます。実際、イギリスでは合成された音声による詐欺が発生したという実例もあります。

将来的には、クローンを見破る技術も出てくると思いますが、今のところはそういう技術があるんだということを知ることが被害を防止する上で必要になるのではなってくると思います。

（とはいえ、日本語の音声合成はまだ不自然さがあるので、詐欺に利用されるような品質になるには、あと数年はかかると考えています。）

上述のような危険性のある技術ではあるのですが、もちろんそれ以上のメリットがあります。

それについては、過去にいろいろと記事を書いているので詳しくはそちらを読んでもらいたいのですが、一番のメリットは音声収録のコストを削減できることではないでしょうか。

昨今は、音声メディアも普及してきており、音声による情報発信が増えています。その際に、音声クローンがあれば収録する必要がなく音声データが作れることになります。

音声収録には多大なコストがかかるため、それがカットできるのは非常に大きな意義があります。

将来的には、耳にする音声の多くが音声クローニングによって生成された声になってくるのではないでしょうか。

音声合成は、既に広く普及している技術ではありますが、技術の発展とともにより利用シーンが増えていくことは間違いないと思います。

株式会社voiceware
代表取締役CEO 田村一起
http://voiceware.co.jp/

この記事が気に入ったらサポートをしてみませんか？