見出し画像

進化するディープフェイクボイスチェンジ攻撃とその見抜き方4つ

ボイスチェンジャー技術の発展が目覚ましい。昨年にはMMVCと呼ばれるソフトウェアがリリースされ、音声の録音データがあれば「誰かの声」を一定のクオリティで再現することができるようになった。更に、先月出現したRVCというボイスチェンジャーではトレーニングが飛躍的に簡単になり、より手軽に高クオリティなフェイク音声をリアルタイムで作り出すことができるようになった。あまりの凄まじさに一部では「パンドラの筺が開いた」とか「神の逆鱗に触れるレベル」と言われている。

どんな感じかと言うと、筆者(30代男性、別に高くもなく普通の声)の声を変換したのがこんな感じになる。(ちなみに変換先の声は四国めたん)

技術の進化に合わせるように、ここ数年、ボイスチェンジャーを使って他人の声になりすまして、詐欺や何かの目的を達成するディープフェイクボイスチェンジ攻撃が起きるようになった。2019年にはイギリスのエネルギー事業社で、親会社のCEOになりすました何者かから電話があり「今すぐハンガリーのこの会社に振り込め」と言われて3000万円を振り込んでしまった事例が報告されている。2020年に香港の日系企業でも同様の報告があった。ディープフェイクによる攻撃はまだまだフィクションの世界のものだと捉えられがちだが、VMWareは去年のレポートで、攻撃者はディープフェイクを攻撃手法に組み込みはじめていると発表している。RVCの出現によって手軽にボイチェンできるようになったことで、ますますこういった脅威は増大すると見て良いだろう。

通常の振り込め詐欺であれば標的はせいぜい個人の金融資産だが、このようなディープフェイクボイスチェンジ攻撃であれば、企業の莫大な金融資産も狙えうる。攻撃のコスパが良く、標的型攻撃を行う攻撃者がこういった技術を使うインセンティブは多いにありそうだ。CEOの声はメディア等で公開されていることも多く、音声データを秘匿することもできない。「声を似せさせない」方向での対策はもはや不可能だろう。

エンジニア兼SF作家の筆者としては、職業柄、新技術が出てくると当然「どのような攻撃が可能か」と「どのような対抗戦略が存在するか」を考えてしまう。というわけで「どうすればRVCのボイスチェンジを見抜けるのか」を考えながら色々いじってみた。結果、4つほど現状のRVCを見抜くことができそうな対抗戦略を発見したので、ここで紹介したい。

その1:特定の音程で歌わせる

ボイスチェンジャーは音程を維持できないもの(MMVC1.3系)があり、そういったボイチェンを通して音程を合わせて歌うことはできない。音程を推定して一定の度合いで変換することで歌うことができるもの(MMVC1.5系、RVC)もあるが、指定したキーに合わせて発話することは難しい。

なので、ボイチェン攻撃へのカウンターとして「この音程の音を出してください」と指定して歌わせるやり方が考えられる。音程をうまく合わせられなかったらフェイクだとわかる。

簡単な方法ではあるが、利用できないケースも多いので注意が必要だ。利用できないケースその1としては、音程の変換をかけずに使っている場合である。攻撃者の地声と、真似する対象の声の音程が近いときにはピッチをずらさないので、この方法は使えない。

利用できないケースその2としては、攻撃者がやたら音感がある場合である。RVCやMMVC1.5系の場合、事前にどれだけ音階をずらすかは数値で指定が可能になっている。そのため、音を聞いた上で三度だけずらして声を出す、みたいな処理を脳内でできる攻撃者には通用しないだろう。

利用できないケースその3としては、声を真似されている人が音痴の場合である。そもそも「この音を出して」と言われて出せない相手の場合、フェイクだから音がずれているのか、普通に音が出せていないのかは判別できない。このような判別がつくようにしておくためにも、日頃から上司とカラオケに行き、ボスの音楽的センスを把握しておくことがセキュリティ上重要になりつつある。

その2:低音でリップロールさせてみる

リップロールとは唇を震わせながら声を出す特殊な発声方法である。ぱ行の破裂音と地声の両方が高速で交互に鳴る。ボイストレーニングの練習などで用いられたりもするやり方だ。

RVCを試していたところ、特に低音(男性地声)のリップロールの変換がおかしくなる傾向があるとわかった。変換では地声部分が優先されて破裂音がかなり弱くなってしまったり、全く無視されてしまうようだ。あんまり詳しくないが、これはRVCが利用している事前学習済みモデルにリップロール音があまり含まれていないからなのではないかと予想している。声を真似されている相手が男性のケースであればこれで判別ができそうだ。

とはいえ、この方法も二つの理由で危うい。一つはトレーニングデータの拡充などによって今後、低音リップロールも容易にフェイク音声が作れるようになってしまう可能性が高そうだという点。もう一つはリップロール音にそもそも話者性(その人の声っぽさ)がどこまで込められているかよくわからない点である。リップロール音だけ聞いて「ああ、うちの上司だな」と判別できるかそもそも怪しい。ゆえに低音リップロールへの更なる対抗戦略として、リップロールの瞬間だけボイチェンをOFFにして、攻撃者の地声でリップロールするという方法がとれるかもしれない。

その3:複数人で同時にしゃべらせる

ボイチェンは一人の音を別の人の音に変換する技術である。ゆえに、複数人で同時に喋った音を変換しようとすると結果がバグる。普通はAさんとBさんが同時に喋ると、Aさんの人の声もBさんの人の声も合わさった状態で聞こえるが、ボイチェンを噛ませると音が崩壊したり、どちらか声のでかいやつの音だけが変換されるようになる。

なので、「振り込め」と言ってきた上司がいた時に、「誰かを捕まえて二人同時に唱えてください」と要求することで、ボイチェンかどうかを判別できる。

しかし、やはり複数人発話への対抗戦略も存在する。サウンドミキサーなどの機材を利用して、複数のマイクを利用し、攻撃者が複数人いれば、それぞれの声を変換した後の音をミックスさせることで、擬似的に二人が同時に喋った音を再現することが可能そうだ。単独犯だと難しいが、相手が複数犯だとすると安心はできないかもしれない。

その4:マイクのすぐそばで吐息たっぷりに囁いてもらう

ボイチェンは人の声でないノイズを変換しようとすると、変な音になる。例えば手を叩いた「ぱちん」音をいれたり、マイクに風をふきかけた時の「ぼわっ」という音をいれたりすると、変な感じに変換されたり、ノイズとしてキャンセルされたりするので、すぐボイチェン利用かどうかわかる。

しかし、 手を叩いた音が正しかったとしても、それ単体で相手を信用してはならない。「その2」の対抗戦略で想定したように、「その瞬間だけボイチェンを切る」と言うやり方もある。

更に「人の声」と「ノイズ」を同時に出させる、というやり方も考えられるが、これも「その3」の対抗戦略として想定したように、サウンドミキサーを使って複数のマイクを通した音を合成する方法で対応ができてしまう。ボイチェンを通したマイクとボイチェンを通さないマイクを使いわけ、ボイチェンを通さないマイクで手を叩いたり、息を吹きかけたりすればいいわけだ。

そこで紹介したいのが、マイクのすぐそばで吐息たっぷりに囁いてもらうやり方だ。吐息たっぷりに囁いてもらうのは、囁き声の変換に粗が多く見分けやすいというのもあるが、一番にはマイクに風をふきかけたノイズを発生させたいからである。こうすると「発話内容に連動して吐息ノイズが発声する」状況になる。あ行、さ行、は行、ぱ行などは吐息ノイズが発声しやすく、口を大きく開かない子音の場合は吐息ノイズがあまり発声しない。

このような音を人為的に再現させるのはボイチェン技術を使っても相当に難しいはずだ。「その3」であったように、吐息ノイズ担当とささやき声担当に別れて、複数のマイクを使ってミキサー合成をさせる方法も取れない。ささやき担当の攻撃者が話す中身に沿って、ノイズ担当の攻撃者が自然なタイミングで吐息ノイズを発生させるのは人間業ではないからだ。

まとめ

というわけで、まとめると、巨大な資産を保有する大企業などがディープフェイクボイスチェンジ攻撃から身を守るためには、入金など大事な作業を指示する者に歌わせ、リップロールさせ、複数人でマイクの近くで吐息混じりに囁かせるのが論理的に安全であると言える。

注意事項

最後に注意事項として、アルゴリズムの進化で上記のような穴は今後克服される可能性が高いことを付け加えておきたい。あくまで今回の記事に書いた手法は2023年5月時点の技術に基づくものである。また、筆者はセキュリティや音声の専門家ではないので、一部間違いが含まれている可能性がある。(とはいえ、こういったディープフェイクボイスチェンジ攻撃があるということを知れるだけでも、心構えが変わって有益なのではないかとは思っている)

追記

また、ほんとに念の為マジレスをするとそもそも努力の方向性としては「声がフェイクか見抜く精度をあげる」よりも「声だけを認証根拠」にするプロセスをなくしていく方向に舵を切る方がよいだろう。ワンタイムパスフレーズなど、別の要素で本人かどうかの認証を行う方が望ましい。上司部下間の権力勾配なども踏まえると、理想的には社内プロセスは(振り込みなどの)重要な特定の操作を依頼される側の人間がいくら頑張っても、別要素での認証がない限りはその操作ができないように組むべきだと思われる。

思考の断片はTwitterで色々投げているのでこちらのフォローや、ディープフェイクユーチューバーをやっているのでチャンネル登録をお願いします

ツイッター

ユーチューブ


この記事が気に入ったらサポートをしてみませんか?