見出し画像

Do DATA inform facts? — the data don't lie.

それが事実かどうか--それはさして重要ではない。人は,正しいと思うから納得するのではなく,納得するから正しいと思うのである。[森本あんり『政治的神話と社会的呪術 なぜ人はファクトよりフェイクに惹きつけられるのか』]
間違いなく2016年を象徴する人物だったドナルド・トランプは、この世には「fact」はないと言い放った。「fact」はない、あるのはただ「opinion」のみ。というのが彼の言い分だが、トランプの厄介なのは、一概にそれを暴言と切り捨ててしまうわけにもいかないところだ。そこには確かに真実が含まれていたりもする。ソーシャルメディア上では、誰もそれがファクトかどうかいちいち検証しない。ただ自分のオピニオンをかぶせることさえできれば、流れてくる情報はなんでもいい。トランプに言われるまでもなく、すでにして世の情報消費なんていうものは、とっくにそうなっていたとも言える。トランプは、ただ「それの何が悪い」と開き直ってみせればよかったのだ。[WIRED.jp『「ニーズ」に死を:トランプ・マケドニア・DeNAと2017年のメディアについて』]
出口なし それに気づける才能と気づかずにいる才能をくれ [中澤系歌集 uta0001.txt]

1.データについて

「データをもとに議論しよう」「正しい情報に触れよう」「事実を客観視しよう」 情報社会と呼ばれるようになってからどれだけの歳月が経っただろう。2020年を生きるわたしたちは、データの海の中に放り出され,情報の波の中をただよいながら事実を求めてさまよっているような状態で,加えて問題なのが,(僕も含めて)この荒れ狂う水上をどうやって泳げばいいのかわからない人がほとんどだということだ。まずはわたしたちを取り巻く「データ」とはなにであり「情報」とはなんであるのかを知る必要があるだろう。Cambridge Dictionary で "data" を調べると次のような意味が出てくる。

DATA:information, especially facts or numbers, collected to be examined and considered and used to help with making decisions

データは嘘をつかない。もちろん。なぜならデータとは "fact" であり,"fact" は「事実」と訳される。データは嘘をつかない,事実は嘘をつかない。

FACTsomething that is known to have happened or to exist, especially something for which proof exists, or about which there is information

と,ここで興味深い現象が生じる。"DATA" とは "information" であり,"FACT" である。そして "FACT" とは "information" の存在する事柄のことである。まとめると「"information" とは  "information" の存在する事柄のことである」 とはならないだろうか。それでは "information" とはなんなのか。

INFORMATIONfacts about a situation, person, event, etc.

こうして字義の円環は閉じられた(※1)。"DATA" とは "FACT" であり,"FACT" とは "INFORMATION" であり,"INFORMATION" とは "FACT" であり,"FACT" とは "INFORMATION" であり,…

ここで再度 "DATA" の定義に立ち返ろう。おそらく注目すべきなのは,"facts" ではなく "numbers" の方だ。データとはある事柄に関する "numbers" のことであり,なるほどそう考えると普段の使用感と一致する。以後、「データ」という言葉は「ある事柄に関する数字」という意味として扱う。

ただし,未だに疑問は残る。"information" と "data" は別物と考えるべきなのだろうか。

2.情報について

「情報」とはなにかについては,クロード・シャノンが開闢した「情報理論」分野から拝借する。

(※2)何かがべつの何かについての情報を伝えるとき,たとえば計測器の目盛りから物理的な量を知り,一冊の本から人生について教えられるときには,伝えられる情報の量は,対象物に関する不確実性がどれだけ減少したかを反映している。そうなると,最も多くの不確実性を解決できるメッセージ,すなわち最も広範囲から集められた符号のなかから最も公平な確率で選ばれるメッセージにおいて,情報の内容は最も豊かになる。しかし,完璧な確実性が存在している場所には情報は存在しない。何も語るものはない。[ジミー・ソニ,ロブ・グッドマン『クロード・シャノン 情報時代を発明した男』]

すなわち情報とは「不確かさを減らすもの」だと考えられる。たとえば,次のことについて予測を立ててみよう。「19-20シーズンの試合において,Russell Westbrook がフリースローを1本獲得した。Westbrook はこのフリースローを決めるだろうか?」情報がまったくないまま予測しようとすると,Yes/No を適当に選ぶしかなく,予測の確度は高くない。

しかし,「Westbrook のキャリア平均の FT% が 80.0% である」というデータを知っていれば,より確度の高い予測が可能となる。8割の確率でフリースローを決めるのだから,どちらかを選ぶなら「フリースローを決める」方にベットするのが妥当だろう。ところが,手元にあるのが 「Westbrook のキャリア平均のターンオーバー数が 4.1 」というデータだったら?このデータは予測精度を上げることに寄与しない。この場合,前者は「良い」情報であり,後者は「悪い」情報であると言えるだろう。

ここで別のデータについて考えよう。Westbrook のキャリア平均 FT% は 80.0% だが,19-20 シーズンに限ると 77.7% である。すると,予測の精度はさらに上がる。同じ「FT%」に関する情報でも,キャリア平均よりも今季のデータの方が「良い」情報と言える。だが,もしも前提となる問いがRussell Westbrook がある試合でフリースローを1本獲得した。Westbrook はこのフリースローを決めるだろうか?」というものだったらどうだろう?どのシーズンにおける話なのか分からないので,この場合,19-20シーズンのデータよりもキャリア平均のデータの方が「良い」情報となる。

ここまでの議論から見えてくるのは,データそのものに優劣はないが,ニーズに依って情報としての価値が変化するということだ。そして,ニーズと照らし合わせてどのデータを参照するかは,分析者の判断に依存している。そう,データは嘘をつかないが,分析者がニーズに対してどのデータを参照するかによって「良い情報」にもなるし「悪い情報」にもなりうるのである。「悪い情報」のなかには悪意のあるデータ参照もあればそうでないデータ参照もあり,これを判定するのは簡単なことではない。

さて,ここまでの議論では重要な点を見落としている。「19-20シーズンの試合において,Russell Westbrook がフリースローを1本獲得した。Westbrook はこのフリースローを決めるだろうか?」について考えてきたが,この質問はバスケットボールについてある程度知っている人にしか通用しないものなのである。バスケットボールを知らない人からすると「フリースロー」なるものがそもそも何なのかわからないため,予測をしようにも何をどう予測すればいいのか,そもそも自分は何を予測しているのかさっぱりわからない。「当り前だ」と思うかもしれないけれどこれはすごく大切な視点で,なぜならこれは共通の言語を使用していない限り永遠に議論はかみ合わないことを示唆しているからだ。加えて,今回の質問はバスケットボールを知っている人のうち NBA についてある程度の前提知識がある人にしか伝わらない。歴史に残る史上最高のハイパー・ウルトラ・アルティメット・ポイントガードとして各所から激賞の嵐でおなじみ Russell Westbrook とはいえ,NBA のことを知らないとこの問いにとっつきにくい。つまり,同じ言語を使っていても,知識のバックグラウンドをある程度共有していないと,データは有効な情報になり得ないのである。

ということで次回以降のブログ(※2)では,次の2点を念頭に置いたうえで「データ」と「情報」そして「事実」についていろいろ考えていきたいと思います!

①情報の良し悪しは「不確かさを減少させるかどうか」で判断できる。

②情報をやり取りするためには,共通の言語を使用し,かつ思考の枠組みをある程度共有していなければならない。

つづく。

(※1)辞書ってそういうところがあって,ある単語の意味を辿っていくと元の場所に戻ってくることが多い。例えば "respect" を Cambridge Dictionary で調べると,まず "admiration felt or shown for someone or something that you believe has good ideas or qualities" と出てくる。次に "admiration" を調べると "the feeling of admiring someone or something" となる。さらに "admiring" と調べると "showing admiration" と出てきて,字義の円環が閉じる。楽しい。

(※2)次回以降を書く元気があるかどうかは不明

参考文献:情報理論とは

この記事が気に入ったらサポートをしてみませんか?