#デマ情報のURL追跡によって、主要な #デマ吐きを特定する：Twitterを用いたケーススタディ

2022年6月1日 13:52

はじめに

ソーシャルメディアプラットフォームが誤報の拡散に対処しようとする時、最初の課題は、どのコンテンツが誤報ポリシーに違反しているかを確実に特定することです。ソーシャルメディア領域におけるあらゆるものと同様、有意義な影響を与えるためには、非常に大規模にこれを行なう必要があります。

いったん特定されれば、そのようなコンテンツは、差し迫った危険がある場合は削除され、可視性が低下し、投稿に注意が必要であることをユーザーに示す通知を表示することが出来ます。

しかし、個々のコンテンツに一つずつフラグを立てることは、誤報に対する万能の対策ではありません。全ての誤報コンテンツを公開前に選別する完璧な自動システムは、最先端のツールでさえ信頼性に欠けるため、依然として手の届かない存在です（結果として、過剰または過小なモデレーションが行なわれます）。一方、ソーシャルメディアに投稿されるコンテンツの量を考えると、人間のモデレーターが誤情報の流れを食い止めるのに必要なスループットに達することはないでしょう。

そのため、信頼性を損なうことなく、誤報を検知するプラットフォームの規模を拡大する方法が必要とされています。FacebookやTwitterのようないくつかのプラットフォームが提唱している解決策の1つは、個々の投稿に対するフラグを、アカウントやグループレベルでのより広範なモデレーション活動の入力として使用し、誤った情報を繰り返し共有することに対する抑止力としたり、ユーザーにより良い情報を提供したりすることです。

しかし、このような防止策が効果的であるためには、ユーザーは、誤った情報を繰り返し共有しても逃げられないことを知る必要があります。そのためには、信頼性の高いファクトチェックが十分に行なわれ、ユーザーが、誤った情報を投稿した場合には責任を問われる可能性が無視出来ないと感じ、投稿する前にもう一度考えるようになることが必要です。

では、ソーシャルメディアに投稿される誤報の量と、ファクトチェックされるコンテンツの量のミスマッチを考えると、個々のURLのファクトチェックの取り組みを十分に活用し、例えば、どのアカウントが信頼出来ないコンテンツを繰り返しシェアしているか、影響力のある誤報はどこから来るのかを検出するなど、より広いインサイトを得る方法はないのでしょうか。

私達は、入手可能なデータに基づいて、何が見つかるかを確認することにしました。ファクトチェック済みのコンテンツのライブラリとして、Open Feedbackデータベースを使用しました。また、誤報やその発信元を特定するために、オープンデータポリシーに基づく比類なき範囲を持つTwitterのデータに注目しました。

取り扱っているデータ

Open Feedbackデータベースは、主に気候変動と健康に関する科学的な話題について、誤報とチェックされた主張を含んでいます。2022年2月21日現在、このデータベースには、少なくとも1つのInternational Fact-Checking Network署名者によってレビューされた12,615のユニークなURLが含まれています。

これらのURLは、ニュース記事、YouTubeのビデオ、Facebookの投稿やツイートなど、あらゆるものにリンクすることが出来ます。信頼出来るコンテンツにリンクしているURLもありますが、Open Feedbackのデータベースに登録されているURLの大半は、不正確または誤解を招くような情報を含んでいます。私達は誤報を研究しているので、後者のものにのみ焦点を当てました。

このURLのリストを入力として、Twitterでどのように共有されているかを確認しました。

2021年9月1日から2022年2月21日の間に投稿されたツイートで、これらのURLのいずれかを共有するものを探しました。この期間は、現状に即した分析を行なうために選択したものです。12,615件のURLのうち、一度でもツイートで共有されたことがある誤情報を含むURLは3,542件にとどまりました。残りの9,073件は、この時間帯にTwitterに投稿されていないか、誤情報が含まれていないか、削除されるなどしてTwitterからアクセス出来ない状態になっていることが分かりました。

なお、これらの数字は、Open Feedbackデータベースで利用可能なURLのみに基づいており、2021年9月から2022年2月の間に公開されたツイートのみを対象としていることに留意して下さい。代わりに、全てのファクトチェック機関が確認した全てのURLの完全なリストがあり、時間窓を拡大すれば、この研究の結果はより適切で網羅的なものになるはずです。

分析に用いた主な指標は、コンテンツやアカウントの影響力の代理として用いたインタラクション数（リツイート数＋返信数＋いいね！数）です。スケール感を出すために、サンプルの誤報URLを共有する全てのツイートとのインタラクションのパーセンテージとしてインタラクション数を表現することにします。

この分析に関しては、重要な注意点があります。稀に、例えば以下のケースのように、あるツイートが誤報のURLに反対しながら共有することがあります：

このツイートは、URL内の誤解を招く主張を明確に否定していますが、ツイートがURLを含んでいるため、サンプルの一部となっています。このような例もありますが、私たちのデータベースには、あるツイートがリンク先のコンテンツの主張を支持しているか否定しているかという情報がないため、誤報のURLを含む全てのツイートをサンプルに含めることにしました。

この判断は、サンプルから無作為に抽出した295件のツイートを人間が検査することで支持されました。その結果、208件（70.5%）のツイートがURLの誤解を招く主張を積極的に支持し、67件（22.7%）がコメントなしでそれを共有し（暗黙のうちに支持し、誤った情報を広めていると考えられます）、わずか6件（2.0%）がそれに反対していることが分かりました。更に13件（4.4%）は、ツイートの文章が共有されたURLの内容とは無関係であったり、オンライン翻訳ツールの使用も含めて理解出来ない言語で書かれていたりする、曖昧なものでした。つまり、URLを共有するツイートは、そのURLに含まれる不正確または誤解を招く主張を広めることを目的としたものが圧倒的に多く、その主張を論破するものはごく少数に過ぎないのです。

更に、論破されることはそもそも稀であるため、例えばアカウント別、URL別、ドメイン名別などで結果が集計されると、その効果は消失する傾向にあります。以上より、論破されたことによる交絡要因が、結論に重大な影響を与えるとは考えられません。

結果

さて、舞台は整いましたが、どんな結果が出たのでしょうか？

１．誤報の共有はエンゲージメントの高さと相関しない

まず、誤報のURLを含むツイートによって生じたインタラクションの総数を代理として、誤報ツイートを最も多く投稿したアカウント（ハイパーアクティブアカウント）が多くの影響力を持つかどうかを確認しました。

答えは「いいえ」です。最もアクティブな上位100アカウント（サンプル中の全アカウントの0.1%）は、サンプル中のインタラクションのわずか1.1%を占めただけでした。

例えば、「誤報リンクの最も活発な投稿者」に選ばれたのは、調査対象の6カ月間でフラグ付きURLを含む227件のツイートを公開したアカウントで、これは1日に1件以上の誤報ツイートがあったことになります。しかし、このアカウントのフォロワー数はわずか112人です。この数字は、Open Feedbackのデータベースに存在するフラグ付きURLのみを含んでいるため、このユーザーはもっと多くの誤報ツイートを投稿している可能性があることに注意して下さい。

キーポイント：

誤報の投稿頻度と影響力は一致しません。
他の要因（フォロワー数等）を考慮せずに過活動アカウントにのみ焦点を当てることは、特に効率的なアプローチとは言えないようです。

２．少数の主要アカウントが大きな影響力を持つ

投稿によって発生したインタラクションの数でアカウントをランク付けすると、集中する様子がうかがえます：上位100アカウント（全アカウントの0.1%）が、誤情報を共有するツイートとのインタラクションの44.1%を占めました。

これは、Center for Countering Digital Hateの《Disinformation Dozen》等、ネット上の誤報に関する過去の報告と一致しています。この報告書では、ソーシャルメディア上で流通する健康情報の大部分は、僅か１０数人の個人によるものであることが明らかにされています。

キーポイント：

一握りのユーザー、特にフォロワー数の多いユーザーだけが、誤報に関わるユーザー数の大半を占めています。

３．より精緻なアカウント分析：インパクトと頻度の混合

あるアカウントが誤報のエンゲージメントを最も多く生み出しているというだけでは、十分に実用的とは言えません。例えば、私達のサンプルの中には、誤報のURLを1つだけシェアしたユーザーがいましたが、彼らは非常に多くのフォロワーを抱えているため、その1つの誤報のツイートが大きなエンゲージメントを生み出しました。

このようなアカウントに監視の目を向けさせることは、必ずしも効果的でも公正でもないでしょう：そのようなアカウントのツイートは、正直な間違いの結果であったり、誤った主張を否定するものであったりする可能性があり、上述したように、データベースに表示されます。

より興味深いのは、複数の異なる誤報リンクを共有し、今後も投稿する可能性が高く、かつ高いインタラクションを生成しているアカウントが、監視強化の対象となる可能性があることです。言い換えれば、これは頻度と影響の両方を考慮したアプローチです。

誤報のURLを共有するツイートを最低5回、つまり調査期間中、月に平均1回以上投稿することをハードルとし、総インタラクション数でアカウントをランキングすると、誤報のURLを繰り返し投稿している影響力の高いアカウントのリストが得られます：上位100アカウントは、サンプルの全インタラクションの19.5%を占めています。

以下はその上位20アカウントです：

**図3. サンプルに含まれる誤報拡散の大きなTwitterアカウント20個の表**

例えば、2021年9月1日から2022年2月21日の間に、ユーザーtoadmeisterは、誤報を含むURLへのリンクを含む5つのツイートを投稿しています。このツイートは、Twitterユーザーから14,867件のインタラクション（いいね＋リツイート＋返信）を生み出し、誤報リンクを含む全ツイートのサンプルの0.6%を単独で占めました（➡文字が小さいので、図3のハイパーリンクをクリックしてご確認下さい）。

キーポイント：

ソーシャルメディアプラットフォームが誤報修正作業のリソース効果を最大化しようとするならば、誤報投稿の頻度が高く、かつエンゲージメントの高いアカウントを調査することが良い出発点となると思われます。

４．URLレベル：どのURLが最も多くのインタラクションを生み出しているのか？

最も多くのインタラクションを生んだ誤報のURLを見てみました。ここでは、上位20件を紹介します：

**図4. Twitter で最も多くのエンゲージメントを得た 20 の URL の表**

例えば、2021年9月1日から2022年2月21日の間に、brownstone.orgのウェブサイトのURLは、4,009件のツイートに投稿されています。これらのツイートは、Twitterユーザーから98,838件のインタラクション（いいね＋リツイート＋返信）を生み出し、サンプルの全インタラクションの3.8%を占めました（➡文字が小さいので、図4のハイパーリンクをクリックしてご確認下さい）。

この表には、3つのカテゴリーが混在しており、非常に興味深い結果となっています：

URLの中には、thegatewaypundit.comのウェブサイトのように、定期的に誤った情報を公表していることで知られるソースを指しているものがあります。
TwitterそのものやSpotify、Substackなど、ソーシャルメディア上の投稿を指すものが多いです（誤報を含む他のツイートへのリンク）。
Reuter, Rolling Stone, Il Tempo等、一般的に信頼出来る報道機関もあります。

カテゴリー1と2は予想通りでしたが、カテゴリー3は具体的な調査を行なう必要がありました。

Reuterの記事（表の3番目のURL）の例は、この最後のグループの代表です。このURLは、SARS-CoV-2のいくつかの亜種に対する薬イベルメクチンの有効性に関する日本の製薬会社興和の研究に関するレポートにリンクしています。元記事では、同社がヒト試験でイベルメクチンがオミクロンに「有効」であると主張したと誤って報道しています。これは、同社が実際に発表した内容を誤って伝えたもので、非臨床試験で「抗ウイルス効果」が観察されたと主張しただけであり、ヒトで観察されたわけではありません。

Reuterは、ジャーナリズムの常として、この記事を訂正しました。因みに、信頼出来る情報源の特徴の一つは、その情報源が間違いに気づいたときに、オープンに訂正を出すことです。一方、信頼出来ない報道機関は、間違った情報を掲載したことを認めないか、読者に知らせずに静かに誤報を削除する傾向があります。

しかし、イベルメクチンが有効な治療法だと考えている人達の間で、既に広く共有されていたという意味で、この訂正は遅すぎたのです。勿論、Reuterのいつもの信頼性が、その主張に信憑性を与えていました。

キーポイント：

単一URLの観点から見た場合、問題のあるコンテンツには、プラットフォーム、信頼性の低いウェブサイト、信頼性の高いウェブサイトなど、様々な出所が混在していることが観察されます。
信頼性の高いソースが持つ幅広いリーチと評判は、大きな責任を意味します。ファクトチェックは、広く共有され、増幅されます。

５．複数の URL を主張毎にグループ化 : どの誤報の語り口が最も多くのインタラクションを集めたか？

Open Feedbackデータベースは、レビューされたURLの殆どに「主張」を関連付けています。例えば、「COVID-19ワクチン接種で生成されたスパイクタンパク質が卵巣に蓄積する」（これは誤りです）、「気候に緊急事態はなく、生態系は繁栄し、人類は二酸化炭素の増加の恩恵を受けている」（これも誤りです）など、あるコンテンツが伝える物語の1文の要約が「主張」にあたります。

クレームは、同じ（誤った）情報を共有している異なるURLをグループ化出来るという点で興味深いものです。URLほどユニークでもなく、曖昧でもないため、大規模な追跡は困難ですが、私達は、期間中、どの主張がTwitter上で最も多くのエンゲージメントを生んだか、簡単に覗いてみることに興味を持ちました：

2021年9月1日から2022年2月21日の間に、バイデン政権がクラックパイプに3000万ドルを費やしていると主張するページを指すURLが、1277件のツイートで共有されました。これらのツイートは、Twitterユーザーから78,356件のインタラクション（いいね＋リツイート＋返信）を生み出し、サンプルの全インタラクションの3.03%を占めました（➡文字が小さいので、図５のハイパーリンクをクリックしてご確認下さい）。

６．影響力のある誤報は、ごく少数のドメインから発信されている。

URLレベルは、どのコンテンツが最も影響力があるかを評価するには興味深いものですが、2つの理由から実行可能性に欠けています。

人間のモデレータが投稿された全てのURLをレビューすることは不可能であり、多くのURLはその隙間から漏れてしまいます。
URLにフラグが立てられ、レビューされる頃には、すでに拡散流行のピークを過ぎている可能性があり、モデレーションはあまり意味がありません。

このサンプルには、964の異なるドメインから発信された誤報のURLが含まれています。Facebook、YouTube、Twitterなどのソーシャルメディアプラットフォームに属するドメインは除外しています。これらのコンテンツはユーザーによって生成されたものであるため、編集者によるコントロールがなく、独自のアプローチが必要だからです。その結果、独自のコンテンツを公開しているWebサイトだけが残りました。

このうち20のドメインは、プラットフォームを除いたサンプルにおいて、誤報とのやりとりの54.0%に関与しています。上位100のドメインは、86.3%を占めています。古典的なパレート法則が働いているのです。

**図6. 誤報を含むリンクが最も多くのインタラクションを発生させた20のドメインの表**

例えば、2021年9月1日から2022年2月21日の間に、sky.comドメインでホストされている、誤った情報を含む7種類のページに繋がるURLが、1,636件のツイートで投稿されています。これらのツイートは、Twitterユーザーから147,983件のインタラクション（いいね＋リツイート＋返信）を生み出し、サンプルの全インタラクションの8.0%を占めました（➡文字が小さいので、図５のハイパーリンクをクリックしてご確認下さい）。

キーポイント：

プラットフォームが誤報を検出する能力を最大化することを目指す場合、誤報を頻繁に共有する影響力のあるドメイン名に焦点を当てることは、効果的な方法となり得ます。

まとめ

誤情報を含むURLの痕跡を追うことは、人間のファクトチェッカーによる作業を活用する上で有効な方法です。1つのURLのコンテンツを確認することで、その誤情報を共有する何十、何百もの投稿を特定することが出来るのです。

更に、これらの個々の投稿を集計して、モデレーションによる精査を強化するための重要な候補を絞り込むことが出来ます。Twitterを例にとると、影響力が大きく、かつ誤報を投稿してきたアカウントを確実に特定するために、事実に基づく方法を考案できることが分かりました。

同様に、影響力のある誤報や偽情報は、主にほんの一握りのドメインから発信されているようです。誤情報に真剣に取り組もうとするソーシャルメディアプラットフォームは、そのようなサイトのリストを管理し、誤情報の伝播のためにそれらが武器化されていないことを確認することが出来ます。例えば、これらのサイトのURLを共有する投稿に警告ラベルを追加したり、一人のユーザーによるこれらのサイトのコンテンツの共有数を制限したり、推奨アルゴリズムがこれらのサイトの可視性を高めることがないようにすることが出来ます。

この記事が気に入ったらサポートをしてみませんか？

#デマ 情報のURL追跡によって、主要な #デマ吐き を特定する：Twitterを用いたケーススタディ

はじめに

取り扱っているデータ

結果

１．誤報の共有はエンゲージメントの高さと相関しない

２．少数の主要アカウントが大きな影響力を持つ

３．より精緻なアカウント分析：インパクトと頻度の混合

４．URLレベル：どのURLが最も多くのインタラクションを生み出しているのか？

５．複数の URL を主張毎にグループ化 : どの誤報の語り口が最も多くのインタラクションを集めたか？

６．影響力のある誤報は、ごく少数のドメインから発信されている。

まとめ

#デマ情報のURL追跡によって、主要な #デマ吐きを特定する：Twitterを用いたケーススタディ