本当に信頼できる情報を見分けるための「エビデンスの質」入門

2018年6月25日 19:23

こんにちは。清水陽介（@smzyuskmental）です。

突然ですが質問です。

あなたは、

「根拠の質」って気にしたことありますか？

たとえば、「研究によって、〇〇が証明された！」っていうニュースや記事あるじゃないですか。

ここでいう「研究」を「根拠」というわけですが、「研究」って聞くと、「あ、これは根拠があって信頼できる情報だな」って思いますよね。

たとえば、「最新医療に基づいた健康法！」って聞くと、とりあえず信頼度高そうな感じがします。

ところが、実はそうじゃないんです。つまり、研究で証明されたからといって、それが信頼できるとは限らないんです。

「え、なんで研究で証明されてるのに信じないの？」という方もいると思うのですが、それは「根拠には”質”があるから」です。もっとカンタンにいうと、論文は論文でも、「信頼できる論文」と「あまり信頼できない論文」があるわけです。

たとえば、とある薬の効果を確かめる研究として、

①「この薬をネズミに使ったら、体脂肪が５％減った！」

って実験と

②「この薬を２０歳の男性に使ったら、体脂肪が５％減った！」

っていう２つの実験があったとしましょう。この場合、どう考えても①よりも②の方が信頼できますよね。

こんな感じで、論文や研究には”質”ってものがあるわけです。

ですので、「研究で明らかに！」と一言で言っても、その研究がどれくらい信頼できるものなのかを知らないと、変な情報に流されまくるわけです。

たとえば、サプリの研究をよーく見ると「被験者たったの6人じゃねぇか」みたいなのがたまにありますからね。要するに、何かを信じる時には「それがどれくらい信じられるか」を吟味する必要があるわけです。

ところが、不思議なことに、多くの人はこの”論文の質”をあまり気にしてないんですよね。

つまり、「最新医療に基づいた」とか「科学が証明した」って言葉があるだけで、たとえその根拠となる研究がテキトーなものであっても、それを信じてしまう人が多すぎるなーと思うわけです。

というわけで今回は、本当に信頼できる情報を見分けるポイントである「論文の質」について解説。

信頼度が低いものから順に紹介していって、★の数が多いものほど信頼できる情報って感じになっております。

「本当に信じれる情報って、どうやって見分けたらいいの？」って人はこれを参考にしてみてください。

それではGO。

信頼度★
専門家の意見

最も信頼度が低いのは、「専門家の意見」。もっとしっかり言いますと、「客観的なデータを省いた、主観的な個人の意見」のことです。

たとえば、「俺の20年の経験からすると、こうすると確実に売れる」「私はこれで１ヶ月で５キロ痩せました！」みたいなやつ。多くの人はこのような「専門家の意見」を頼りに物を買ったりしますが、これらは全て「信頼に値するものでは”ない”」ということです。つまり、プロが言うからって正しいとは限らないというわけですね。

で、これはなぜかという話ですが、それは「バイアス」がかかっている可能性が高いからです。

バイアスを知らない方にカンタンに説明すると、バイアス＝「思い込み」や「勘違い」みたいな感じです。つまり、専門家の意見には「思い込み」や「勘違い」が含まれる可能性が高いから、カンタンに信頼しちゃダメだよという話です。

たとえば、よくあるバイアスとして、「確証バイアス」ってのがあります。これはなにかというと「自分がすでに有している信念を補強するデータだけを、意識的、無意識的に選り好みする傾向」のことです。カンタンにいうと、「自分が信じたくないものは無視しちゃう」的なイメージですね。

たとえばよくある例だと「糖質制限ダイエットをする人が、”糖質制限ダイエットは無意味だった”みたいな記事を見ても、読みたがらない」みたいなのが、確証バイアスですね。

他にもバイアスはいろいろありまして、たとえば

記憶バイアス：都合のいいように事実を捻じ曲げて記憶する

Ex,パチンコで、本当は合計で負けてるのに、合計は勝ち越してるって思い込むやつ

錯誤相関：目立った2つの現象が起きると、そこに誤った因果関係を結びつける

Ex,占いに行ったら結婚できた！（本当は行動したから結婚できただけ）

このように、いくら専門家であろうと現実を捻じ曲げて解釈している場合があるわけです。

もちろん、専門家が正しいことを言う場合もあるのですが、信じる前にちゃんと根拠を確かめましょう。「お医者さんが言ってたから正しい！」「経験者が語るんだから間違いない！」「結果を出してる人の実体験だから参考になる！」という考えは危険でございます。

ですので、「〇〇を食べたら痩せた件」みたいなブログは、「そういうのもあるんだな〜」くらいの感じで楽しむのがベターです。

信頼度★★
事例研究

これはなにかっていうと「1人または少数の事例を集積した研究」です。

たとえば、「子供に牛乳を飲ませたら背が伸びた！」みたいなやつです。要するに、「AをしたらBになったよ的な実例をいくつか集めた研究」なわけですが、これもあまり信頼できません。

なぜかというと、「状況が統制されていないため原因が特定できないから」です。

たとえば、牛乳を飲んだ子が実際に背が伸びたとして、それはもしかしたら「単に時間が経ったから伸びただけ」な可能性もありますよね。他にも、もしかしたら「学校で体育の授業が始まって伸びた」のかもしれないですよね。

つまり、他の条件を明確に定義しない限り「AによってBが起きる」と明言することはできないわけです。

また、余談ですが、最近のTwitter界隈で「プロフィールをこうしたらフォロワー増えました！」みたいなのが流行っていますよね。

しかしあれは
「プロフィールを変えなかった場合にどうなっていたのか」
「他の人が同じように行った場合にどうなるのか」
「他にフォロワーが増えた原因はないのか」
などを吟味しない限り、「こうしたらフォロワーが増えた！」とは本来明言できないはずです。

他にも、「朝バナナダイエットやったら１ヶ月で５キロ痩せました！」みたいなのもそうです。痩せた人をよーく調べてみると、ちゃんとジムに通ってたりします。笑

というわけなんで、「こうしたらこうなったよ！」的な個人の体験談を見たら、「へ〜そんなのがあるのね〜。本当か調べてみよ」くらいの感じがちょうど良しです。

信頼度★★★
観察研究

これはなにかって言いますと、「介入を入れずに経過や結果を観察する実験」です。カンタンに言うと「ある条件に従って2つ以上のグループに分け、その人たちをほっといたらどうなるかを見届けて、分析する」的な感じです。

たとえば、

・痩せてる人と、太ってる人で2つのグループに分ける
↓
・１ヶ月の間、それぞれがどれくらいの食事をしてるのか、様子を見る
↓
・結果、太ってる人の方がたくさん食べてたことが判明！

このような研究は『観察研究』と言います。

で、「この”観察研究”ってどれくらい信頼できるの？」って話ですが、答えは「そんなに信頼できない」です。

というのも、先ほどの「事例研究」と同じように、バイアスの影響を消しきれないんですね。

たとえば、ある研究の結果、「太っている人ほどたくさん食べてる！」って事実が分かったとしましょう。しかし、それだけでは「たくさん食べたから太ってる」のか、「太ってるからたくさん食べる」のかまでは分からないですよね。

つまり、被験者に対して介入を入れない（何もしない）実験では、因果関係までは特定できないわけです。

というわけなんで、「太ってる人はたくさん食べてる！だからあまり食べないようにしよう！」という思考ルートは危険であります。

「成功者はみんなミニマリストだ！だから俺もミニマリストやるぜ！」ってのもこれに似てますね。

信頼度★★★★
準実験

このへんからそれなりに信頼できる感じになってきますが、まだ信頼度はイマイチ。

準実験とはなにかと言うと、先ほどの観察研究の逆です。つまり、被験者に対して実際に研究者側が何かしらの「介入」を行うスタイルの実験のことです。

ちなみに『介入』ってのは、薬を飲ませたり、運動させたり、要は実験参加者のなにかしらに操作を入れることです。

で、特に「ランダム化された比較群を用意していない実験」のことを準実験というのですが、パターンは主に２つあります。

①対照群を有しない前後比較実験

たとえば、

・大学生100人を集める
↓
・学生に今の気分を訪ねる
↓
・全員に1時間ランニングをしてもらう（介入）
↓
・その後、学生の気分が良くなったかを調査

１つ目はこのように『対照群を有しない前後比較実験』です。

これの問題点は、「ランニングをしなかった場合にどうなっていたか」がわからないところ。本来は、学生を半々くらいに分けて、比較対象を作っておくべきです。

②不等価2群比較デザイン

2つ以上のグループに分けるものの、分け方がランダムではない実験。

たとえば、

・大学生100人を集める
↓
・実験を受けたい人/受けたくない人で分ける（非ランダム）
↓
・「実験を受けたい」と言った人に、ランニングをしてもらう
↓
・ランニングをした人としなかった人で、気分が違うかをチェック

みたいなデザインのものです。

この場合、比較対象があるのはいいんですが、問題は「ランダムではないこと」。つまり、参加者が意図的にグループを選んでいるので、「ランニングをしたがる人は、そもそもランニングで気分が良くなる人だけだった」かもしれないってことがあるわけです。

というわけで、研究の中身を見る際は、「ちゃんとランダム化された比較群があるか？」ってのを見るのが非常に大事なポイントになってきます。

信頼度★★★★★
ランダム化比較試験（RCT）

ここから上は、基本的にかなり信頼してオッケーです。
最も質の高い実験デザインが、この「ランダム化比較試験」（RCT)。
これは何かって言うと、「ランダム化された対照群が用意された介入実験」のことです。

これは非常にシンプルで、たとえば、

・大学生100人を集める
↓
・学生をランダムに2つのグループに分ける（ランダム化）
↓
・片方のグループにだけ1時間のランニングをしてもらう（介入）
↓
・両グループの変化を観察（気分とか心拍数とか）

みたいなイメージですね。
で、これをやった結果、統計的に有意な差が見られれば、「その介入には効果あり！」と言えるわけです。

要するに、「RCTで効果が確かめられたものは、結構信頼していいよ！」という感じに捉えておけば、だいたいはオッケーです。

ただ一応、RCTの中でもランクはあって、「参加人数が多いほど信頼できる」って点は抑えておいた方がいいかもです。
100人の実験よりも、1万人の実験の方が確実ですからね。

僕のnoteでも、出来るだけこのデザインの実験を取り上げるようにしております。

信頼度MAX
RCTの系統的レビュー（またはメタ分析）

「RCTでほぼ完璧なんじゃない？」って感じがするのですが、実はそうでもないんです。というのも、１つのRCTだけだと、「たまたまだった」ってこともあるわけです。

たとえば、「炭水化物は太るっていう結果のRCT」と、「炭水化物を食べても太らないって結果のRCT」の両方が存在する、ってことがあるんですよね。この場合、どっちも信頼度が高いので、「何を信じたらいいのー？」ってなるわけです。

で、「じゃあどうすればいいの？」ってなった時に登場するのが「メタ分析」。メタ分析とは、「質の高い研究のみをまとめ上げて、それをさらに分析する手法」であります。
要するに、科学的な信頼度で言えば最強と言っても過言ではないレベルです。

たとえば、僕のnoteで言いますと、『メタ分析で判明した最強の説得法』なんかがまさにメタ分析です。

現状の科学では、この「メタ分析」によって得られた知見が最も信頼度が高いとされております。

「メタ分析」って単語を見たら飛びついてオッケーです。笑

まとめ

というわけで、論文の質についてカンタンに説明して参りました。

ざっとまとめますと

信頼度★：専門家の意見

信頼度★★：事例研究

信頼度★★★：観察研究

信頼度★★★★：準実験

信頼度★★★★★：ランダム化比較試験（RCT）

信頼度MAX：RCTの系統的レビュー（メタ分析）

という感じでした。

「根拠の質」を気にしたことが無かった方は、なんとなーくでいいので覚えておきましょう。「RCTとメタ分析はマジ半端ない」くらいでもオッケーです。笑

サプリを買う時なんかは特に参考にしてください。騙されることが減るかと思います。

最後までお読み頂き、ありがとうございました。

（参考文献）

1記事あたり、ざっくりとリサーチに4時間、構成に30分、執筆に6時間。合計9時間ほど時間を掛けて執筆しております。『ためになった!』という方は、サポートをいただけると、次のnoteを執筆するモチベーションになります。気が向いた方だけで構いません。よろしくお願いします。

本当に信頼できる情報を見分けるための「エビデンスの質」入門

「根拠の質」って気にしたことありますか？

信頼度★専門家の意見

信頼度★★事例研究

信頼度★★★観察研究

信頼度★★★★準実験

①対照群を有しない前後比較実験

②不等価2群比較デザイン

信頼度★★★★★ランダム化比較試験（RCT）

信頼度MAXRCTの系統的レビュー（またはメタ分析）

まとめ

信頼度★
専門家の意見

信頼度★★
事例研究

信頼度★★★
観察研究

信頼度★★★★
準実験

信頼度★★★★★
ランダム化比較試験（RCT）

信頼度MAX
RCTの系統的レビュー（またはメタ分析）