データを理解するためのヒント(1)

データを大切にする、大事にできるようになるためには、データを見る目を養うことが重要だと思います。でも具体的には何に注意すればよいのでしょうか。そのヒントとして今回と次回で、「成り立ちから私たちの元に来るまで」「私たちが解釈する時に」という2つの視点で考えてみようと思います。

データを理解するためのヒント ~成り立ちから私たちの元に来るまで~
・数字の定義を知る
・数字の意味を考える
・その数字は誰が作ったのか、目的は?
・作った人以外の(メディアなど)仲介者の意図は?
データを理解するためのヒント ~私たちが解釈する時に~
・断言していないか
・反対意見も聞いてみよう
・素直に受け取ることはできるのか
・データの元を探せるか

今回は最初の視点です。

データを理解するためのヒント ~成り立ちから私たちの元に来るまで~

数字の定義を知る
データに限らず、それが何を意味しているのかを知ることは、必須です。勝手な思い込みで理解したつもりになったり、正確な定義を知らず議論してもかみ合わなかったり。
これは、勝手な解釈をしないための基本中の基本ですね。

数字の意味を考える
数字の場合、その意味を考えることは意外に重要です。例えば定義と結果の数字だけ言われてもピンとこない、得られた数字がどんな意味を持っているのかを把握できれば、その情報(数字)が意味を持つはずです。
考えるための1つ目の方法は、比較対象を持つこと。つまり同じ定義で類似するものの数値を集めてみる方法です。少なくとも数例が見つかれば、感覚がつかめると思います。
もう1つの方法は、増減の分析です。その数字がどんな場合に大きくなるか、小さくなるかを考えてみることです。例えば何かの売り上げを上げたい、と考える場合。どうすればお客が増えるか、単価を上げられるか、原価を下げられるか、という試行錯誤を行いますね。これこそ数字がどのような場合に大きくなるか、小さくなるかを考えている例です。
(この方法は、実は重回帰分析の考え方なんですよね。重回帰は高校ではやらないみたいですが、少しでも数字を考える人なら、頭の中で組み立てているはず。重回帰は線形なので、実際にはもう少し複雑になりますが、一次近似としてはやはり重要。)
数字の意味を少しでも考える習慣があれば、数字を鵜呑みにしてしまうリスクは下がるのではないでしょうか。

その数字は誰が作ったのか、目的は?
続いて考えたいのは、その情報・数字は誰が作ったのか、と言う点です。基本的に重要な情報は、誰かが何かのために集めた、またはそれが分析されたものです。目的を読み取ることは難しい場合でも、誰が集めたか、誰が解釈したのかがわかれば、可能性をいろいろ考えるられるかも知れません。

作った人以外の(メディアなど)仲介者の意図は?
情報が私たちの所に伝わる時は、直接であるよりも、間接的であることが多いでしょう。伝わって来た情報は、何らかの解釈が行われている可能性が高い訳ですね。同時に、元情報の全部が伝わってくる訳ではないので、伝える人が伝えたいことだけを切り出している場合も多いはずです。
最初の数字は誰が作ったのかも重要ですが、作成者の目的とは別に途中でニュアンスが変わってしまっている可能性もあります。


以上を「ワクチンの有効性」を例にして考えてみましょう。

まず、数字の定義は基本です。ただ、有効性の定義に使われるのは、感染、発症、入院、重症化、死亡、など様々なものがあること、それぞれ独立に定義されていることを知っておきたいですね。
例えば少し前、確か「発症の有効性」と「重症化の有効性」に関して、意味を理解せずに勝手な解釈をしている例をみかけました。たとえ重症化するのが発症した人の一部だとしても、それぞれの有効性の大小に関係はありません。
あとは特別な数字を定義から確認しておきましょう。有効性100%は、接種したら絶対に感染しない、という意味です。(ファイザーが12歳から15歳のデータで100%と言っていますが、このような数字は、基本的に信頼できないと思っています。)一方有効性0%は、接種してもしなくても、感染率は変わらない、という意味です。有効性がマイナスになったら、接種した方が感染するリスクが高い、という意味です。95%信頼区間(幅のある推定)では、すでにマイナスの値を見かけるようになっています。

有効性として得られた数字の意味、特に有効性が下がっているとは何を意味するかは、ニュースを理解するためにも押さえておきたいですね。これは、ワクチン接種の有無だけが異なる2つのグループを作り、このグループの中から同じ期間に感染した人の数を調べます。「有効性が下がる」の意味は、ワクチン非接種者の感染率よりも、ワクチン接種した人の感染率が増加する、という意味です。つまり、ワクチン接種者でも感染のリスクが高くなる、という意味になります。
ところで新型コロナワクチンの有効性のデータのうち、前向きの評価(つまり正式な治験としてのデータ、後ろ向きでない)が、基本的に製薬会社関係のもであることは、知っておいて良いと思います。つまりデータを作った(調べた)のは、ワクチンを売りたいメーカー自身だ、ということです。

データの仲介者はメディアだけではありません。今回は日本政府を考えてみましょう。ポイントは、政府が10月時点ですでに来年分として1億2000万回分(ほぼ人口と同じ)の契約をしたことです。この調達を行った立場の組織がワクチンを打たなくて良い、というメッセージを出すでしょうか?どう考えても、すでに2回接種した人にも、もう一度打ちましょう、と啓発すると思います。

意図の裏にある情報を読み取る能力が問われています。


データを理解するためのヒント ~私たちが解釈する時に」は次回とします。


以上、今回は下記(a)の前半の説明でした。

(a) データリテラシーを向上させよう
デーの成り立ち、解釈、伝聞に注意/わからないことは、わからないということが正しい/発信者の発言目的も意識しよう/人は安心したい、騙されたとは思いたくない/人は自分が正しいと思う(思いたい)情報を探す
(b) 数学・確率・統計がどのように使われているかを知ろう
全数調査できないから一部を調査/幅のある推定を知ろう/「有効性あり」と科学的に主張するには仮説検定/因果関係と相関関係は別物/直接の因果関係が不明でも統計ならできることがある/人は無意識に数学を使っている
(c) 多くの反論に耐えることが科学だ
反論こそが科学の発展を促した/嘘・捏造・作為的データも存在する/同じ方向を向く結果は信頼できる