NATO StratComによるAIネット世論操作レポート

NATO StratComが2021年12月21日に、AIネット世論操作の可能性に関する報告書「The Double-Edged Sword of AI: Enabler of Disinformation」(https://stratcomcoe.org/publications/the-double-edged-sword-of-ai-enabler-of-disinformation/221)を公開した。この報告書はタイトルにある通り、ネット世論操作でのAIの活用の現状と可能性を整理したものである。攻撃側と防御側の両方について書かれている。

大きく活用シーンを「コンテンツ作成」「拡散」の2つに分けて論じている。そして、最後に今後5年について述べている。技術の変遷を整理し、現在使用されている技術の可能性と課題に触れている。結論は下記。今後、5年の間に想定される変化は末尾を参照。

テキストに関しては防御側の検出能力が向上しているため、現在は限られた範囲で利用されているに留まる。今後、技術の向上などにより、利用が増加する可能性はある。
高品質のコンテンツを完全自動生成することは、専門家ではない人にとっては現実的ではなく、現在はごく一部のボットに利用されているに留まる。しかし、近い将来、より高性能のコンテンツ生成AIツールが登場すれば状況が変わる。
・ネット世論操作のためのAIアプリケーションは、テキストやプロフィール画像などのコンテンツの生成、ボットの自動制御などを統合したボットシステムになる可能性がある。
現在のAIは人間と同等のテキストを生成できるようになりつつあり、ネット世論操作用の文章を生成できる。また機械翻訳によって複数の言語に翻訳し、利用することができる可能性がある。
大国がAIを悪用する可能性がある。国際的なAI研究のいくつかは高品質なマイクロター ゲットの偽情報を大規模に生成することを目的としている可能性が高く、検知できないソーシャル・ボットネットを利 用してコンテンツを効率的に拡散し、ボ ットの自動化機能を活用して社会へのインパクトを高める可能性がある。
質の高いコンテンツを大規模に自動生成するには人間のオペレーターが必要である(例:プロンプトエンジニアリング、ディー プフェイクの編集、音声データのラベリングなど)。また、検出されないソーシャルボットネットには、 人間のオペレーターの介入とネットワークインフラ(多数のプロキシサーバーなど)が必要となる。
大規模なニューラルネットワークモデルは、 大規模でコストのかかるインフラを必要である( 例:GPT-3サイズのテキストモデルの学習には約 1,200万ドル)。しかし、ボットの自動化とコンテ ンツの最適化は、悪意のあるアクターが長期的に注力している分野でもある。

個別の内容はおおまかに下記のようになっている。

●コンテンツ作成
・webデータの自動スクレイピング
 スクレイピングしたテキストの自動投稿、テキストの機械翻訳や音声からテキストを生成しての利用などにAIが利用されている。スクレイピングは安価かつ大量にコンテンツを入手するための方法となっている。CAPTCHAサービスにも対応しつつあり、さらにそれにCAPTCHAサービスも対応し、いたちごっことなっている。

・テキスト自動生成
 QAnonなどの問題あるコミュニティの投稿をスクレイピングした大量のデータを学習したGPT-3彼らのプロパガンダを再現することができた。ただし、莫大なデータセットが必要なこと、基本的な常識がないこと、複数の文章で矛盾することがあるなどの問題もあった。そして、限界がわかったとしても直接それを修正する方法がない。
 中国やロシアでGPT-3を用いたプロジェクトが行われている
 GPT-3を用いて生成した文章は差別や嫌悪などのネガティブな表現を含むことが多くなる傾向がある。
 Hugging Faceが提供しているモデルzooは100の言語に対応しており、T5やmT5が知られている。Nvidia Rivaモデルでは会話や質問の応答にフォーカスしているためボットのコメントに適している。

・ディープフェイク(画像、音声、動画)
 フェイク画像はもっともネット世論操作でAIが用いられている分野でもある。2019年、フェイスブックに大量の現れたプロフィール画像はstyleGAN2によって生成されたものと推定されている。どのようなものかは、アクセスするたびに異なる実在しない顔写真を生成して表示するサイト(https://thispersondoesnotexist.com)で見ることができる。
 もっとも人気があるのはGANの利用だ。次いで人気があるのはVAEだった。

 フェイク音声で利用されているTTSモデルには、Tacotron、 63Wavenet64、DeepVoice3など優秀なモデルが存在する。

 ソーススピーカの音声波形をターゲットスピーカの音声 に似せて、言語内容を変えずに変換 する音声変換では、DESCRIPT(https://www.descript.com)がある。

 音声合成はかなり高度な水準に達しており、聞き分けることはかなり難しい。

 FaceSwap84やDeepFaceLabのオープンソースが広がったことで合成映像の生成は身近になり、合成映像生成のためのオールワンのツール(https://arxiv.org/abs/2011.10688の登場によってさらに簡単になった。

●拡散
・ボット、ソックパペット、サイボーグ
 ソックパペット(Sock Puppet)はいわゆるトロールに当たる。AIはプロフィール画像の生成に主として用いられていた。

 完全自動のAIボットはまだ本格的な運用にはいたっていない。中にはスクレイピングされたツイートを使ってGPT-2に学習させ、ツイートを生成している例もあった(https://minimaxir.com/2020/01/twitter-gpt2-bot/)。

 2019年のボット市場に関する調査(https://link.springer.com/chapter/10.1007%2F978-3-030-39627-5_8)の結果からもまだ完全自動化されたボットは本格運用の時期になっていないことがわかる。

・SNSとデータブローカー
 SNSのマイクロターゲッティング広告はネット世論操作のよいツールとなっている(https://arxiv.org/abs/1808.09218)。コンテンツのレコメンデーションはエコーチェンバーを強化している。

 データブローカーは話題となって消えたケンブリッジ・アナリティカを始めとして多くが存在している。

●今後5年間の変化
 ・テキスト生成の最適化

 ・機械翻訳精度の向上

 ・AIのもたらすパワーを大企業、国家が独占する。特に技術指向があり、民主主義的ではない国家や企業は大規模なデータを収集、利用しやすく発展も早い。

 ・ディープフェイクの品質向上と利用拡大

 ・複数AIの組み合わ。自動生成されたテキスト用に説得力を増す画像を生成するなど、AIを組み合わせた利用の進展。

 ・訓練や調整を必要としないAI。たとえばOpenAIのCLIPはプレトレーニンの後、すぐに画像解析を行うことができる。GPT-3も似たところがある。


本noteではサポートを受け付けております。よろしくお願いいたします。