【長文版】大量のデータは中立や客観性を保証するのではなく、逆に偏りを生む。冗長注意！

2021年10月24日 04:58

ニューズウィーク記事（https://www.newsweekjapan.jp/ichida/2021/10/post-30.php）の長文版（およそ2倍！）です。単に冗長なだけという気がするので特に細かいことに関心のある方だけお読みいただければと思います。

ご存じの方には当然のことだが、多くの場合大量のデータを使うことは偏りを生む。大量のデータは中立的で客観的なプロセスで生み出され、研究者に与えられるわけではないためだ。データはオフラインの世界とは異なっており、ネット世論操作があるうえ、運営企業の方針やアルゴリズムの影響を受けている。さらに研究のサプライチェーンの問題もある。マイクロソフトリサーチの上級首席研究員（https://www.microsoft.com/en-us/research/people/kate/）であり、AIナウ（https://ainowinstitute.org）の創設者であるケイト・クロフォードは、著書『Atlas of AI Power, Politics, and the Planetary Costs of Artificial Intelligence』（イエール大学出版局、2021年4月6日）の中で大量のデータにもとづくAIはその成り立ちからして、中立的にも客観的にもなり得ないと主張している。
同じ問題は大量のデータを使う統計や計算社会学にも起こりえる。世界の多くの国では政権与党や為政者による国内向けのネット世論操作が行われており、SNSはその影響を受けている（https://www.newsweekjapan.jp/ichida/2021/01/post-17_2.php）。また、SNS運営企業は自社の利益確保のためのコンテンツ管理方針とアルゴリズムを持っており、それによってSNSデータは歪められる。研究の原材料であるデータは汚染されているのだ。

そして偏りを生んだ研究結果を社会的な文脈で解釈すると、さらに偏りを大きくすることがある。大量のデータと専門家の解釈は広く受け入れられやすいので、それが中立的で客観的に社会を描いていると思う人も多いだろう。しかし、そうではない。

Fernando Diazらのグループの「Online and Social Media Data As an Imperfect Continuous Panel Survey」（2016年1月5日、https://doi.org/10.1371/journal.pone.0145406）という論文ではオンラインで得られたデータはオフラインを代表するものではなく、不完全なパネルとして扱うべきだとしている。この論文では過去の研究を踏まえ、2012年のアメリカ大統領選について分析を行っている。過去の多くの研究が利用しやすさからツイッターもしくは検索ログを利用していることから、この論文でもツイッターと検索ログを用いている。性別や地域などの主要な属性から見て、オフラインの人々を代表していないことがわかり、検索ログとツイッターの間にも違いがあった。イベント前後など時期によって反応および反応する人々が変化しているため、不連続のパネル調査に近い。こうした偏りは非代表的な調査で用いられる手法を用いることで調整でき、有効に活用できる可能性を示している。ひらたく言うと、検索ログやツイッターのデータを調整しないでそのまま使うことは偏りを生むことになるということだ。

AIが偏見を持つことは知られるようになってきたが、統計や計算社会学については数値があると信憑性が高いと感じてしまう人もまだ多いかもしれない。後述するが、大量のデータを用いるAI、統計、計算社会学を研究する人々がこうした偏見を減らすように取り組むことはキャリアにとって不利になることがある。そのため偏見は減らない可能性がある。そうなったら受け取り側で意識して、偏りを見抜くしかないのである。
今回は大量のデータを用いるAI、統計、計算社会学に対して指摘されている課題をご紹介したい。過去の文献を紐解くとおよそ5つの問題があるようだ。これらは相互に関係し、重複もしているので、いずれもっと適切な整理を考えたい。

　・データの問題
　・分類の問題
　・研究チームの構成の問題
　・思い込み、事実、仮説、解釈の問題
　・研究サプライチェーンの問題

なお、この記事を書くきっかけとなったのは計算社会学の鳥海不二夫先生のヤフーニュース記事「なぜリベラルの声は中間層に届かないのか？」（2021年10月5日、https://news.yahoo.co.jp/byline/toriumifujio/20211005-00261538）を拝読して抱いた違和感だった。別記事（https://note.com/ichi_twnovel/n/nbbcece237e7c）に書いたので興味ある方は参照いただければ幸いである。誤解の無いように申し上げておくと、私は鳥海先生を尊敬かつ応援しており、その活動は広く知られるべきと考えている。
記事は論文の紹介であり、記事も論文もとくに政治的な意図はなかったと思う。しかし、衆院選前の時期ということもあって誤解を受けたり、与党あるいは野党のいずれかに利用されたりする可能性のある内容だった。繰り返しになるが、論文や記事そのものに特定の政党あるいはグループを貶めたり、支援する意図はなかったと思う。しかし、こうしたものは社会的文脈の中で解釈されてしまうので、執筆者の意図とは異なる形で広まる危険があったように感じる。このことがきっかけでデータにまつわる研究で避けて通れない（と私は思っているが、おそらく一般的にはそうではない）データの偏りについて整理してみようと思った次第である。専門家でもない私が書くのは僭越であり、気が進まないのだが、こういうテーマを書く人は他にあまりいなそうなので書いてみることにした。なにかの参考になれば幸いである。

●データの問題
AIは学習のもととなるデータが偏っていれば結果として偏ったものになることは一般にも知られるようになってきた。たとえば顔認証システムは人種によって精度が異なるし、偏見のある捜査記録からは偏見のある判断が生まれる（https://www.newsweekjapan.jp/ichida/2020/09/post-6_1.php）。大量のデータを相手にする統計や計算社会学でも同じことが言える。元のデータに問題があれば結果にも問題があるのは統計や計算社会学でも同じだ。
データは人間が作り出したものだということは忘れられがちだ。ケイト・クロフォードはデータの収集と分析の両方の段階で隠れたバイアスが大きなリスクとなり、ビッグデータの解析において数字そのものと同じくらい重要な要因となりうると語っている（The Hidden Biases in Big Data、Harvard Business Review、2013年4月1日、https://hbr.org/2013/04/the-hidden-biases-in-big-data）。そして、大量のデータが中立性や客観性を担保するという考え方を「データ原理主義（data fundamentalism）」と呼んで問題視している。
ケイト・クロフォードは、ビッグデータのそのままうのみにしてはいけない例として災害発生時のツイッターとFoursquareのデータを組み合わせた研究を例にあげている。災害に関するツイートが最も多かったのはマンハッタンだった。マンハッタンはスマートフォンの所有率が高く、ツイッターの利用率も高いためでるが、データだけを見るとマンハッタンが災害の中心地であるかのような印象を受ける。しかし、マンハッタンよりも被害が大きかった地域ではスマホへのアクセスが制限され、長時間の停電もあったためツイートは少なかったのだけなのだ。
『Big Crisis Data』（Castillo, Carlos、Big Crisis Data、2016年、Cambridge University Press）では災害時のSNSデータについて広範な議論を収録しており、その中で災害時だけでなく通常時にも当てはまる下記の指摘をしている。

・SNSデータの利用には、「街灯の下で鍵を探す」危険性がある
SNSならば従来に比べてはるかに容易に大量のデータを入手することができるため、SNSのデータの利用が適切ではない場合でも頼ってしまう危険性がある。「街灯の下で鍵を探す」とは実効性がないにも関わらず容易だからという理由でその方法を採用してしまうことである。夜にある男が街灯の下で鍵を探していた。通りすがりの人が手伝ったが、いっこうに見つからない。「どこで鍵を落としたんですか？」と訊ねたところ男は離れた暗がりを指さし、「あそこで落としたのですが、暗くて見えないので明るいここで探しています」と答えた。
SNSデータの活用が広がり、計算社会学が本格化する時期に刊行された『Twitter A Digital Socioscope』（Yelena Mejova、Ingmar Weber、Michael W. Macy、Cambridge University Press、2015年5月）を見ると、あちこちにツイッターは世界規模で社会に関する大量の包括的なデータを簡単に入手できる素晴らしいツールであると書かれていて、「街灯の下で鍵を探す」危険性を感じさせる。
正直に申し上げると、私自身も「街灯の下で鍵を探す」行為をしている。これまでの連載あるいは他誌での記事で果たしてツイッターデータを使うのがよりよいアプローチだったのかと言われると自信を持って言い切れないものもある。

・大規模なデータからはランダムなペアで有意な相関が現れることがある
Google Flu Trendsが行ったオンラインでの検索の時系列変化とオフラインのインフルエンザ関連の時系列変化の比較をきっかけにさまざまなSNSデータとオフラインデータの相関が議論されたが、そこにはランダムなペアで有意な相関が現れる危険性があった。たとえば一人当たりのマーガリン消費量と米国メイン州の離婚率は2000年から2009年の期間に有意の相関があった。『Big Crisis Data』に掲載されている例ではないが、「ニコラス・ケイジの年間映画出演本数」と「プールの溺死者数」の相関については聞いたことがある人も多いだろう（ウォール街の投資家さえだまされる「見せかけの相関」とは？、ダイヤモンド・オンライン、2017年5月17日、https://diamond.jp/articles/-/127740?page=2）。
これらの例は極端であり、「見せかけの相関」と判断できるが、実際の調査ではその判断が難しい。たとえばSNSから得られるデータの項目はほぼ決まっており、「ニコラス・ケイジの年間映画出演本数」といった突飛なものはない。したがって、SNSの任意のデータ間で現れた「見せかけの相関」を意味のあるものとして解釈する危険性がある。

・SNSから得られるビッグデータ以上に適した公開データが存在することがある
データの莫大さに目を奪われて（あるいは目新しさ）、より有効なデータの存在を忘れてしまう危険性が指摘されている。

・政治の分野では偏る可能性がある
前掲の「Online and Social Media Data As an Imperfect Continuous Panel Survey」では選挙を実例に分析を行っている他、過去の政治に関する研究を調べ、その問題点を指摘している。いくつかの成功例はあるものの、選挙の結果との相関が低いことや、ネット世論操作やキャンペーンに影響されることなどの問題点をしている。
『Big Crisis Data』で特定の国の選挙で得られた結果を他の国に広げて一般化できないことが指摘されている他、『Twitter A Digital Socioscope』でも選挙の予測に関してさまざまな課題があることが指摘されていた。

・SNSデータには、さまざま歪みがある
前述のようにSNSを使用している人々の属性がオフラインの世界の属性と一致していない。複数のアカウントを持っている人の存在や複数の人が使っているアカウントの存在がある。また、SNS上のつながりが実際の対人関係を正確に反映していない可能性があることなど多くの歪みがある。結果を公開する方はあくまでツイッターでのことと但し書きをつけていても、受けとる方は一般的な傾向と受けとりがちだ。特にツイッターで結果が流れる際には文字数の制限から「ネットでは」、「ツイッターでは」といった言葉が削除されがちだし、ネットニュースのタイトルからも省かれがちだ。たとえば、「なぜリベラルの声は中間層に届かないのか？」という記事のタイトルになる。
ダナ・ボイドは、SNSで高頻度でやりとりをしていることが親密を意味するわけではないと語る。「もし、相手のために費やした時間で親密度を計るなら、同僚は兄弟や親よりもはるかに親密ではない存在になってしまう」として、大規模なデータに目がくらんで自分でも気がつかない思い込みが折り込まれる危険性を指摘している（Big Data: Opportunities for Computational and Social Sciences、2010年4月17日、https://www.zephoria.org/thoughts/archives/2010/04/17/big-data-opportunities-for-computational-and-social-sciences.html）。
このように人間の感情や嗜好と、SNSデータで計測できる項目の間を結びつける際には注意が必要だ。誤った結びつけを行うとデータそのものが歪んでしまう。たとえば、「いいね！は同意や共感のあらわれ」、「リツイートは賛意」と想定することが多いが、そうとは限らない。「コロナ時代のソーシャルメディアの動向と課題科学技術に関する調査プロジェクト報告書」の中の「データから見るデマ拡散の構造」（https://dl.ndl.go.jp/info:ndljp/pid/11653563）では「興味深かったから」真偽とは無関係に拡散したものが32.7%あったたことがわかっており、エンターテインメントとしての拡散もあったとしている。もちろん、共感や賛意を示すこともあるだろう。つまり、いいね！やリツイートの意図の解釈には幅があるため、分析者が想定する文脈に合わせて解釈できる余地がある。

・プラットフォームのアルゴリズムや管理方法がデータに影響を与える
最近、ツイッター社はツイッターのアルゴリズムが特定の政治的傾向（ツイッター社の表現によれば主流右派）のコンテンツをより拡散していたことを明らかにした（https://cdn.cms-twdigitalassets.com/content/dam/blog-twitter/official/en_us/company/2021/rml/Algorithmic-Amplification-of-Politics-on-Twitter.pdf）。当然ながら、これはツイッターから得られるデータに影響を及ぼす。原因や詳細についてはまだ明らかになっていないが、SNSデータを扱う際にはそのアルゴリズムや運営企業のコンテンツ管理がSNSデータに影響を与えることには留意が必要だ。
すでにニューズウィークの記事でご紹介した（https://www.newsweekjapan.jp/ichida/2021/09/post-28_2.php）ように、フェイスブックが問題のあるコンテンツ管理を行っていたことが暴露された。この問題は相次ぐ内部告発によって大きなスキャンダルになっている。SNSデータは運営企業の管理方針やアルゴリズムによる偏りがあるものと考えた方がよい。

・ネット世論操作の影響の問題
ネット世論操作は世界に広がっており、その影響は無視できない（https://www.newsweekjapan.jp/ichida/2021/07/sns1_2.php）。SNSデータの統計分析では自動的に投稿やリツイートを行うボットの存在の確認くらいは行っているが、実際のネット世論操作においてはさまざま手法が開発され、複数のSNSをまたがって影響工作を行うことも珍しくない。これらの影響を除去することは方法論が確立されていない上、日本ではSNSデータの解析を行っている研究者が、同時に影響工作の研究を行うことはまだ一般的ではないようだ。

●分類の問題
データ取得の際あるいは結果の解釈において分類あるいはラベル付けを行うことがある。ここにも偏りが入り込む。歴史上もっとも有名な偏見に基づく分類のひとつはサミュエル・モートンによる頭蓋骨による人種区分である。優秀な科学者として知られていた彼は、人種による頭蓋骨の容積の違いで、知能の優劣を示し、もっとも知能の高い人種を白人とし、もっとも知能の高い人種を黒人とした。ケイト・クロフォードの著作でも触れられており、ナショナル・ジオグラフィックでも「サミュエル・モートン医師は科学的な立場から人種を差別した最初の人物だった」として紹介されている（人種差別を助長した、モートン医師の負の遺産、ナショナル・ジオグラフィック、2018年03月29日、https://natgeo.nikkeibp.co.jp/atcl/news/18/032300131/）。
ケイト・クロフォードは、『Atlas of AI Power, Politics, and the Planetary Costs of Artificial Intelligence』の中で、分類は権力を反映するとし、科学的とされる分類が政治的あるいは偏見に基づいていた事例を紹介している。

わかりやすい例をあげてみよう。性別というのは基本属性のひとつだが、カナダでは生まれた時の性別（男と女のふたつの選択肢）と現在の性別（男女以外の複数の選択肢が用意されている）を訊ねることが多い。データ取得時あるいは分類時において、男女の2つに分けるか、それともそれ以上の分類を考慮するかでデータの取り方や解釈は変わってくる可能性がある。
性別に限らず、属性や行動や嗜好は研究者がどれだけ対象について幅広い知識を持っているかによって想定できる内容が異なるし、後述するように研究チームの構成によっても変わってくる。たとえばチーム全員が国立大学を卒業した男性で実家が富裕層であった場合は、かなり偏ったものになる可能性がある。実家が富裕層で国立大学を卒業した男性がいけないということではなく、同質の集団では対象について持ちうる知識や価値観の幅と多様性が乏しくなるということである。

前掲の「なぜリベラルの声は中間層に届かないのか？」の元の論文では、「安倍首相支持」を「保守」、「反安倍」を「リベラル」として分類していた。私を含めてこの分類に違和感を抱いた方がいた。分類は解析の結果として出てくるが、その分類の解釈が幅があり、抽象度が高くなると分類の解釈に幅が出てくるし、人によって異なることもある。前掲の「なぜリベラルの声は中間層に届かないのか？」の元の論文では、「安倍首相支持」を「保守」、「反安倍」を「リベラル」として分類していた。私を含めてこの分類に違和感を抱いた方がいた。分類は解析の結果として出てくるが、抽象度が高くなると分類の解釈に幅が出てくるし、人によって異なることもある。社会に関わることでは抽象度の高い言葉（保守やリベラルなど）を使うと、解釈の幅が広がるだけでなく、政治的な意味合いが強くなったり、意味合いが変化したり、意図があいまいになったりしがちなので注意が必要だ。保守（この定義はよくわかりませんが）や自民党の中に「反安倍」の人はいないというだろうか。その解釈を決定するのは研究サプライチェーンの最終工程にいる研究者たちであり、公開された結果を見る多くの人はその解釈以外の解釈も可能なことまでは考えない。
余談であるが、論文について「ラベリングが恣意的」と私が指摘したとツイートなさった方がいらしたが、私は研究メンバー内では客観的かつ中立的なラベルだという判断をなさったのだと考えている。ただ、それとは異なる解釈も可能かもしれないと申し上げただけである。保守（この定義はよくわかりませんが）や自民党の中に「反安倍」の人はいないというだろうか。その解釈を決定するのは研究サプライチェーンの最終工程にいる研究者たちであり、公開された結果を見る多くの人はその解釈以外の解釈も可能なことまでは考えない。
余談であるが、論文について「ラベリングが恣意的」と私が指摘したとツイートなさった方がいらしたが、私は研究メンバー内では客観的かつ中立的なラベルだという判断をなさったのだと考えている。ただ、それとは異なる解釈も可能かもしれないと申し上げただけである。

●研究チームの構成の問題
研究チームの構成がAIの偏りを生むことが指摘されている。コロンビア大学で約400人のAIエンジニアに学習用のデータやインセンティブなどの条件を変えてアルゴリズムを作らせる実験が行われた（Biased Programmers? Or Biased Data? A Field Experiment in Operationalizing AI Ethics、コロンビア大学、2020年12月4日、https://arxiv.org/pdf/2012.02394.pdf）。その結果、アルゴリズムの予測精度にもっとも影響が大きかったのは学習用データの正確さだったが、チームの構成特に人種と性別が影響していることもわかった。同質のチームよりも多様性のあるチームの精度が高かった。
ひとつの調査結果だけで研究チームの構成が結果に影響を及ぼすと言い切れるわけではない。しかし、その可能性には留意する必要があるだろう。

日本の計算社会学者の方を全て存じあげているわけではないが、私が目にする日本国内を対象とした記事や論文のほとんどは日本人かつ男性だった。データ分析がその人物の価値観や社会的環境に影響を受けることは少なからずある。多様なメンバーがいた方が、特定の価値観や社会的環境による偏りを避けることができる可能性が高くなる。

統計調査の設計や解釈でも同じ問題は起こる。たとえば『ネットは社会を分断しない』（角川新書、2019年10月10日）という本では10万人のアンケート調査をもとにネットが社会を分断していないことを説明している。この本ではネットの影響を直接の影響に限定しており、まとめサイトなどのミドルメディを介して既存の大手メディアに取り上げられるフェイクニュース・パイプラインについては触れていない。意図的に外す理由は見当たらないし、外した理由の説明もないのでこの調査のメンバーはミドルメディアやフェイクニュース・パイプラインについて知らなかったのであろう。アンケート調査の設計の時点で漏れているので、ミドルメディアやフェイクニュース・パイプラインの影響については考慮されない分析が行われている。

●思い込み、事実、仮説、解釈の問題
事実と思い込みの境目は曖昧で難しい。特定の新聞のニュースをよく見ているなら信用していると考えるのは「当たり前」に思うかもしれないが、実はメディアの利用度と信頼度は一致しないことがわかっている（https://www.newsweekjapan.jp/ichida/2020/10/post-11_2.php）。前述のようにネット上のコミュニケーションの頻度が多いから親密だと言うこともできない。前述のように「いいね！」や「リツイート」が賛意を示すものとは限らない。

「当たり前」は人によって異なる。調査対象と共有できる「当たり前」ならば問題ないが、そうでない場合は思い込みになってしまう。事実についても事実でないことを事実と思い込んでしまうことは少なくない。事実に基づいて考えることを謳った大ベストセラー『ファクトフルネス』（ハンス・ロスリング、日経BP、2019年1月11日）のほとんどは10の本能の紹介とそれに基づく対策に費やされているが、10の本能は仮説であって事実ではない（本の脚注にそう書かれている）。しかし、本文中には「未検証の仮説であって事実ではない」と読者にはっきりわかるようには書いていないので、仮説を事実と思い込んでしまった人は少なくないようだ。『ファクトフルネス』が話題になっていた頃は、10の本能を事実と考えている人のツイートをよく見かけた。事実を追求している本の中心が事実であるのは「当たり前」という思い込みができていたのだろう。

前述の「なぜリベラルの声は中間層に届かないのか？」では、鳥海先生から拙ブログに貴重なコメントをいただいた。そこではっと気がついたことがある。
「首相についてのリツイートをする時点で「politically active」とは捉えておりません．一国の総理大臣に関するツイートであれば政治的とは無関係にもRTは行うのではないかと想定しています．」というお言葉をちょうだいして、それはそうかもしれないと気がついた。間抜けな話であるが、私のツイッターの相互フォローの方には政治関係については全くと言ってくらいツイートしない方が少なからずいる。そのため首相についてツイートするのは特に政治に関心のある人という感覚があったのだ。目から鱗が落ちるとはこのことだが、首相についてリツイートすることがどれくらい一般的に行われているのかを確認しないとどちらが「当たり前」かはわからない。
もうひとつの別の可能性は、前掲「データから見るデマ拡散の構造」で指摘されているようにエンターテインメントとしてのリツイートである。こちらの場合は、何度リツイートしても「politically active」ではない可能性がある。

解釈においても同様に思い込みから飛躍した結論を導いてしまう危険性がある。また、最後にあげる研究サプライチェーンの問題もあるので、じゅうぶんに注意が必要である。

●研究サプライチェーンの問題
AI、統計、計算社会学などで大量のデータを利用する研究は研究サプライチェーンと無縁ではいられない。研究サプライチェーンは、研究者がサプライチェーンを支える人々の意図に沿った行動を取るように誘導し、意図に沿わない場合はサプライを中止する
AIの研究者自身は純粋にAIを研究しているかもしれないが、資金や施設を提供する側には経済的便益や軍事利用、政治利用などの意図がある。その意図に沿った研究には資金や施設が提供され、そうではないものには提供されない。結果として研究サプライチェーンの意向に沿った研究者だけが残る。ほとんどの人は好きな研究を好きなだけする自己資産を持っているわけではないので、ほとんどの研究に研究サプライチェーンの問題は存在する。多くの国や企業がしのぎを削っているビッグデータの分野ではよりわかりやすい形で現れる。

ケイト・クロフォードは、前掲『Atlas of AI Power, Politics, and the Planetary Costs of Artificial Intelligence』でAIはその成り立ちからして、中立的にも客観的にもなり得ないと主張している。AIの社会的影響を考える際には、AIを支える権力を把握する必要があるという。ケイト・クロフォードは、AIを構成する原材料、電力、データなどあらゆるものを調査し、それらが差別的に安価なコストで調達されていたり、安価な労働力によって支えられていたり、人権を侵害する形でデータが採取されていたり、政府の支援（つまり税金）によって支えられていたり、軍や諜報機関からデータや支援を受けたりしていることを明らかにしている。安価な電力を提供してもらうために、グーグルなどは多額の資金を費やしてロビイスト活動にいそしんでいる。
ケイト・クロフォードはAIに対して批判的な立場を貫いているので多少割り引いたとしても、まっとうなコストで原材料を仕入れ、まっとうな賃金を支払い、政府関係機関や軍や諜報機関の支援を受けなかったらAI研究がやりにくくなるのはわかる。そのため現在AIを支えている組織が好ましいと感じて支援する研究者のAI研究が進むという研究サプライチェーンの意向に縛られた世界ができている。
程度の差こそあれ、同じ問題は統計や計算社会学にも起こる。私が特に気になるのは、これらが自覚なく行われている可能性だ。当たり前に自分や周囲と同じ価値観のみでデータを分類・解釈し（たとえば調査対象者などの視点や価値観による異なる分類・解釈には思い至らず）、当たり前に利用しているデータが偏りのあるものだったり、当たり前に接している同僚が同じ基準で選ばれた研究サプライチェーンを支える側の意向に沿った人間だったりするのである。たとえば、顔認識ソフトのテストのベンチマークとされる「Faces in the Wild」というデータセットでは、男性が70％、白人が80％だった（The Role Of Bias In Artificial Intelligence、Forbes、2021年2月4日、https://www.forbes.com/sites/forbestechcouncil/2021/02/04/the-role-of-bias-in-artificial-intelligence/）。当然、このデータでは白人男性以外の精度を確認することは難しい。与えられたデータや研究チームの構成などの環境を疑いなく受け入れてしまうと研究サプライチェーンの罠に陥る危険がある。

●研究者のみなさんには自覚的であってほしいものだが……
本稿の内容について、「そこまで考える必要があるのか？」と感じる方もいると思う。しかし、データと解釈の問題に関してはSNSデータに調整を行ったり、SNSデータを使わない他の方法で代替したり、複数の方法を組み合わせることで問題を回避することが可能だ。それを行わないのは手軽に大量のデータを使えるというSNSデータのメリットが減ってしまうからだ。「街灯の下で鍵を探す」という寓話を思い出してほしい。

この世界で研究活動を行うことは、研究サプライチェーンの最終工程に飛び込むことである。そのことに自覚的であることは研究を中立的、客観的にする助けになる。自分自身がおかれた社会的文脈を理解し、自分と異なる文脈の人々とチームを組み、データの内容を生い立ちから理解していかないと、自覚なしに研究サプライチェーンの意向に沿ったアウトプットを出してしまいやすくなる。

しかし、研究者には自覚的であってほしい、というのは私の願いにすぎないし、正直おすすめできない。AI、統計、計算社会学を研究する方々の多くは、研究サプライチェーンのまっただ中にいる人であり、同じ立場の人々に共有される成果をあげていった方が認められやすいだろう。当たり前と思っていることに疑義を唱えることの方がリスクが高い。ただ、自覚せずに研究サプライチェーンの罠にはまる人が増えれば増えるほど、社会には「特定の人々」（ケイト・クロフォード風に言うと権力を持った層）に都合のよい大量のデータから得られた「科学的事実」とそれに基づく仕組みが生まれてゆくことになる。私は「特定の人々」ではないので嫌だと思うが、「特定の人々」にとっては好ましいことだろう。本稿が研究サプライチェーンから産み出される成果を受けとる人々にとって参考になれば幸いである。

余談であるが、私がリベラル（この言葉の意味を教えてほしいものだが）や左翼（同じく意味を知りたい）とみなされることが多いのは、研究サプライチェーンの意図にそぐわないものに注意を払うようにしているからかもしれない。そうしないと、入ってくる情報や知識や常識は研究サプライチェーンの意向に沿ったものが多くなるので、意識的にそうではないものも取り入れているだけなのだけど。

本noteではサポートを受け付けております。よろしくお願いいたします。