生成AIの構造的欠陥がもたらす誤・偽情報の拡散

2024年6月24日 02:47

NewsGuardが発見したトップ10の生成AIが32％の確率でロシアの誤・偽情報サイトの情報を提示していた問題が話題になっている。

Top 10 Generative AI Models Mimic Russian Disinformation Claims A Third of the Time, Citing Moscow-Created Fake Local News Sites as Authoritative Sources
https://www.newsguardtech.com/special-reports/generative-ai-models-mimic-russian-disinformation-cite-fake-news/

●主要10の生成AIモデルに共通する問題

対象となった生成AIはChatGPT-4、GeminiおよびXやMetaのAIなどが主要なものが含まれていた。マイクロソフトがWindowsとともに配布しているCopilotも対象だ。
19の誤・偽情報について、下記3つの立場のプロンプトを用いた。
・誤・偽情報に関する事実を求める中立的なプロンプト
・誤・偽情報を真実と仮定し、より詳しい情報を求めるプロンプト
・誤・偽情報を意図的に生成させることを目的とした悪意のあるプロンプト

生成AIからの回答は、「誤・偽情報禁止」（回答を避けたり、反証を提供）、「注意を繰り返す」（誤・偽情報を繰り返したが、注意を促す注釈や免責条項が付いていた）、「誤・偽情報」（誤・偽情報を信憑性あるものとして応答）の3段階で評価された。
570件の回答のうち、152件は明確な偽情報、29件は免責事項付きで偽情報を回答しており、389件は誤情報を含んでいなかった。その内訳は応答拒否（144件）、反証を提供した（245件）である。

生成AIはロシアの誤・偽情報を拡散しているローカル紙を装ったサイトを信頼できる情報源として参照することもあり、時には記事をそのまま紹介することもあった。

特定の生成AIモデルの問題ではなく、全体に共通した問題であったため、個々のモデルのスコアは公開されていない。

●感想

生成AIはリリース当初からうさん臭く感じていたので、まったく驚かなかったのだが、世の中では実務での利用が進んでいるようで反響は大きかったみたいだ。
生成AIには大量のデータから学んで応答できるようになってゆく。大量のデータをあからじめ人間が精査することはできない。なにしろ大量だし、真偽が明確ではないもの、間違ってはいないが偏った価値感に基づいた判断や評価が書かれていることもある。さまざまな理由でデータの事前のフィルタリングは無理だろう。すると、一定の確率で誤りや偏りを含むことになる。
生成AIは大量のデータから学習した後、実際の人間と応答して強化学習を行う。強化学習を行うのは偏った地域だったり、偏った階層の人々だったりするため、固有の方言や価値感が入り込む。

アフリカの安価な労働に支えられるAI　AIは偏見と権力をより強化する、 https://note.com/ichi_twnovel/n/n0229d04047e5

つまり2段階の偏向を含んで生成AIは本番稼働する。なぜ、これがまともな応答をすると考えるのだろう？

しかも、今回はロシアが作った偽のローカル紙にだまされたが、いまはピンクスライムジャーナリズム全盛期で生成AIを利用して偏ったニュースのローカル紙のサイトが量産されている。ますますもって学習データが偏り、汚染されている。

ネオナチも生成AIを使った情報発信に熱心に取り組んでいる

Neo-Nazis Are All-In on AI、 https://www.wired.com/story/neo-nazis-are-all-in-on-ai/

生成AIによって状況の悪化は加速している。なにしろアメリカでもっともダウンロードされたニュースアプリは誤・偽情報OKなのだ。ｓ

アメリカでもっともダウンロードされたニュースアプリNewsBreakの正体　中国由来のAIが架空記事を執筆、 https://note.com/ichi_twnovel/n/n9618d9951528

好評発売中！
『ネット世論操作とデジタル影響工作：「見えざる手」を可視化する』（原書房）
『ウクライナ侵攻と情報戦』（扶桑社新書）
『フェイクニュース　戦略的戦争兵器』（角川新書）
『犯罪「事前」捜査』（角川新書）＜政府機関が利用する民間企業製のスパイウェアについて解説。

本noteではサポートを受け付けております。よろしくお願いいたします。