見出し画像

ディープフェイクの概要と既存技術の紹介~今AIで何ができるのか~

ディープフェイクは、「ディープラーニング」と「フェイク」の組み合わせによる造語で、人工知能を使って人物の動画や音声を合成する技術を指します。この技術はもともと、映画製作やエンターテインメント業界での作業効率を向上させるために開発されました。

しかし、そのリアリティと高い精細度から、不正な使われ方も増えており、現在では偽動画の代名詞ともなっています。ディープフェイク技術は、ポルノへの転用によるプライバシー侵害や尊厳侵害、フェイクニュースによる政治的または防衛上の混乱、詐欺、企業評判の損害など、多くの社会問題を国内外で引き起こしています。

これまで多くの問題が顕在化しており、主に芸能人や政治家などの著名人がターゲットになっていますが、近い将来、ソーシャルメディアを通じて一般人や企業にも拡大すると予想されます。個人をターゲットにした場合、フェイクリベンジポルノや地域コミュニティを破壊する偽情報の拡散などが問題となり得ます。企業に対しては、偽情報を流布して株価を操作することで金融市場に大きな混乱をもたらす可能性もあります。

最近の例では、岸田首相のフェイク動画が拡散され、各メディアが注意を呼びかける事態となりました。

ディープフェイク技術の分類

生成モデルには、ChatGPTのようにテキスト・画像を生成するものから、動画、音声を出力するものまで様々ですが、ディープフェイクの文脈では人物の静止画、動画に関する生成モデルがフォーカスされてきました。 これらのモデルはフェイススワップ、リップシンク、パペットマスターの3つの技術に大別されます。

フェイススワップ

フェイススワップは、静止画・動画中の人物の顔を別の人物の顔に入れ替える技術です。より詳細に言えば、「スワップされる側の顔」のアイデンティティに無関係な属性情報(表情、頭部ポーズ、背景など)を保持したまま、「スワップする側の顔」のアイデンティティ情報(顔構成要素の形状やテクスチャなど)を与えられた「スワップされる側の顔」に転送することを目的としている。これは、エンターテイメントや映画制作業界において応用可能性が高く、コンピュータビジョンとグラフィックスの分野で大きな注目を集めている。

実例

下の画像は上段スワップする側、下段がスワップされる側を示しています。

フィエススワップ技術を用いることで、以下のような画像を作成できます。

下段の人の表情や背景はそのまま、上段の人の顔の特徴が移っているのがわかります。

リップシンク

リップシンクは、音声をソースとして静止画、動画の人物の口の動きを操作する技術です。動画の音声を差し替えた時に生じる不自然さを解消するために使用されます。

実例

以下の動画は元々はメルケル首相がドイツ語でスピーチしている動画をにリップシンクを施し、英語を喋っているように加工した動画です。

とても自然な口の動きになっていることがわかります。

パペットマスター

パペットマスターは、映像の中で対象人物の表情、あるいは全身をハイジャックし、思い通りに動かさせることを目的としている。

実例

以下の動画は、左上のダンサーの動きを真似るように右の人を操っている動画です。まさに「人形」のように操られています。

しかしバレエほど複雑な動きとなると、うまく操るには難易度が高いようです。

まとめ

本記事ではディープフェイクの概要と問題点と、既存のディープフェイク技術について紹介しました。紹介した事例はやや古い研究も含まれており、現在はより精度が高く、かつ簡単に扱えるツールが出てきています。次回はこれらのディープフェイクへの対抗技術について扱ってまいります。

参考

  • Fine-Grained Face Swapping via Regional GAN Inversion (arxiv)

  • A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild (arxiv)

  • Everybody Dance Now (arxiv)


■「TDAI Labについて」
当社は2016年11月創業、東京大学大学院教授鳥海不二夫研究室(工学系研究科システム創成学専攻)発のAIベンチャーです。AIによる社会的リスクを扱うリーディングカンパニーとして、フェイクニュース対策や生成AIの安全な利用法について発信しています。
URL :https://tdailab.com/