集計対象のツイートについて

 この記事では「炎上レポート」の補足として、レポートにおけるツイートの分類基準と、「表現に対する姿勢」の集計方法について説明する。

1. 分類方法

 「炎上可視化レポート」で集計しているツイートは、次の3つの集計範囲に分けて集計している。範囲を分ける理由としては、表現に対する姿勢の違いが明確になりやすく、反応ユーザー層の違いを浮き彫りにしやすいからである。

A. ツイートの分類

  • 元ツイート:騒動の発端となったツイート

  • 引用・リプライ:元ツイートへの引用ツイート・リプライ

  • その他:上記に関連するその他のツイート

 以降で、各分類ごとの詳細を説明していく。

B. 元ツイート

 レポートの集計の軸となるツイート。基本的には「ある騒動の発端となったツイート」が該当する。これには、表現に対する批判が該当することもあれば、表現が規制されたことに対する批判が該当することもあり、必ずしも表現への批判ツイートが該当するとは限らない

C. 引用・リプライ

 文字通り"引用ツイート"と"リプライ"のことであり、この2つをひとくくりで集計する意図としては「元ツイートから直接派生するツイート」をまとめて集計したいという意図がある。
 いわゆる「連投ツイート」も形式上は"リプライ"であり「引用・リプライ」として集計している。
 また、"リプライ"は、"元ツイート"に対する「直接のリプライ」のみでなく、「元ツイートをきっかけに発生した全てのリプライ(リプライに対するリプライも含む)」を集計の対象としている。

D. その他

 「その騒動に言及している"元ツイート"にも"引用・リプライ"にも当てはまらないツイート」が該当する。"引用・リプライ"と異なり、"元ツイート"から自動的に集計対象が決まらない。
 基本的には"元ツイート"が投稿されてから1週間以内に投稿された、その騒動に関連するワードを含んだいいね数の多いツイート」を「その他」として集計している。よって、検索ワードやTwitterの仕様に左右されるため、すべてのツイートを拾いきれるわけではない。

2. 「表現に対する姿勢」の集計方法

 次に、「表現に対する姿勢」の集計方法について説明する。

A. 集計方法

 まず、「表現に対する姿勢」とは、「"表現"や"表現の自由"に対する意見や考え方」を指し、その姿勢が肯定的・中立的・否定的かを示すものである。
 そして、その集計にあたってのステップは、おおむね以下の4つとなる。

「表現に対する姿勢」の集計方法
1. ツイート単位で、「表現に対する姿勢」を分類
 ポジティブ  中立・不明  ネガティブ
2. その分類により、各ツイートに数値を設定
 ポジティブ = 1  中立・不明 = 0  ネガティブ = -1
3.ユーザーごとに、各ツイートへの反応を数値として集計
 反応が投稿・いいねなら設定した数値で集計し、それ以外は 0 で集計
4. 集計した数値の合計値で、ユーザーごとに「表現に対する姿勢」を判断
 1以上 = ポジティブ  0 = 中立・不明  -1以下 = ネガティブ

B. 対象となる反応

 姿勢判断の対象となるユーザーの反応は、ツイートの「投稿」、もしくはそのツイートへの「いいね」である。それ以外の反応は、すべて「中立・不明」として集計している。

 「投稿」については当然、価値観の表明であり、これを対象とすることに異論はないと思われる。

 「いいね」については、その機能を必ずしも賛同を示すために使っていないユーザーも存在するものの、公式には「好意的な気持ちを示す」ため、もしくは、「共感していること、または高く評価していること」を伝えるための機能とされており、「いいね」をそのツイートが示している価値観への賛同と捉えることは十分に合理的であると判断した。

 逆に言うと、これ以外の「リツイート」「引用ツイート」などは、その行動のみでは元ツイートへの賛同を示しているかは判断できないため、「中立・不明」として集計する。

C. 対象となるツイート

 「表現に対する姿勢」の判断は、各集計範囲のツイートに対しておこなっているが、「引用・リプライ」については、全てのツイートを姿勢判断の対象にしている訳ではなく、「いいね」「リツイート」の上位80%に該当するツイートのみを対象としている。

 例として、下のグラフは、引用ツイートを「いいね」の多い順に100のセグメントに分け、セグメントごとにいいね数を累積集計したものである。このグラフが示すところは、あるツイートへの引用ツイート全体のうち、わずか2%の引用ツイートが、引用ツイート全体のいいね数の約80%を占めているということである。

※引用ツイートをいいねの多い順に100のセグメントに分け、セグメントごとにいいね数を集計

 何%のツイートが80%をカバーするかは騒動によるが、要は、引用ツイートに対して「いいね」「リツイート」をしたユーザーを把握するにあたり、引用ツイート全体のうちの数%のツイートをみれば、その80%のユーザーの動向は把握できることを意味しており、8割のユーザーの動向が拾えれば分析上は十分であると判断している。

 一応、上位80%の判断方法を改めて言葉にすると以下のようになる。

上位80%の判断方法
1. 引用ツイート全体のいいね数を集計
2. 「いいね」の多い順にツイートを並べ、そのいいね数を累積して集計
3. 累積値が全体のいいね数に対して80%未満となるツイートをピックアップ

 なお、8割という基準はパレートの法則にあやかっている。

 なお、「いいね」についても判断方法は同様である。また、リプライはAPIの都合上、すべてのケースで取得できるわけではないが、取得できる場合は姿勢判断の対象に含めるようにし、また、元ツイートへの関連性の高さを重視して「元ツイートへの直接のリプライ」に限定して集計している。

この記事が気に入ったらサポートをしてみませんか?