【正しいコロナ対策】正しくデータを見るために知っておくべき5つの罠【データアナリスト必見のスキル】
AIや機械学習によってデータアナリストの活躍の場が増えてきました。もはや、インターネットを支配する=データの波を乗りこなす、といっても過言ではないでしょう。
さらに、コロナ情勢も相まって、嘘と本当の情報を判断する能力が必要となってきています。「コロナは情報に感染する」と言われるくらいに、コロナの偽情報は大量に出回っています。
そんなわけで今回は皆さんにデータを正しく判断するための5つの道具を紹介しようと思います。データ分析は今後必須のスキルなので、ぜひ覚えていってください。
1.偽陽性
例えば体調が悪くてコロナの検査を行ったときに、症状のない人も間違って陽性になってしまうことを偽陽性といいます。
多くの検査は100%の結果は出て来ずに、99.98%くらいだったりします。これは少なく感じるかもしれませんが、一万人検査すると間違えて健康な人も2人くらい陽性と判定してしまうということですので、意外と無視できないのです。
だからといって検査を信用するなということではありませんが、心当たりが無くても無闇やたらと検査するというのは少し危険ということですね。
データ分析でもこういったことが起こります。例えば、外れ値を厳しくチェックし過ぎると、問題ないものも判定されてしまい、無駄な手間の原因となります。必要十分を意識しましょう。
2.偽陰性
次は逆に、本当はアウトなのに検査では陰性と出てしまう場合ですね。さっき述べたように、検査は100%正確ではないので、ときどき間違いが出てしまいます。その結果、「めちゃくちゃ熱が出て、体調が悪くて、味覚もないけど、陰性だった」ということが起こるのです。(コロナじゃなくて別の病気の可能性もありますが、、、)
データ分析においては、重要な値が集計方法や検査方法によって消えてしまう場合がこれに当てはまります。データが少ないと偽陰性により、重要な傾向を見落とす恐れがありますので、気をつけましょう。
3.ローカル最適
心理学の実験などで、「どんな説得方法が一番効果があるのか」や「どんなコミュニケーションが一番仲良くなれるか」などが行われます。
被験者を集めて、いくつかの擬似的なコミュニケーションをとってもらうことで実験を行い、人間の習性を評価するというものがほとんどです。
こんなときに気をつけたいのが、ローカル最適です。
例えばよくある話では、研究機関=大学であることが多いので、被験者は大学生に偏りがちです。そんな状況で最高の方法を考えようとしてしまうと、大学生の特徴が影響してしまい、一般とは異なる最適結果が出てしまうような事があります。
機械学習では「過学習」と呼ばれる現象で、実験データに合わせすぎて応用が効かなくなるパターンですね。
頑張りすぎて逆効果になることもあるので、気をつけましょう。視野を広くするのがポイントです。
4.天井知らず
最適化というのは、いくつかの変数に従って最適なものを選び出す方法です。例えば住宅のコスパを最適化させたい場合は、土地面積や家賃を含めたいくつかの変数で、バランスの良い物件を探すことになります。
ここで落とし穴として、天井知らずがあります。天井知らずというのは、まだまだ良い結果があるのにそこそこ良いデータで結果を出してしまうことです。
例えば、本州でランダムに初期地点を決めて物件を最適化していたが、実は九州や離島にコスパ最高の物件があった場合などですね。
これも先程と同様、視野の狭さが悪さをしています。冷静に一歩引くと簡単に気付けるものなのですが、本人には意外とわからないものです。
5.データ違い
そもそも参照しているデータが間違っているパターンです。
例えば、人間に関するサプリの効果を調べている時に、マウス試験ばかりを参考にして結論づけてしまうようなことがあります。
データがたくさんあることは良いことですが、関係のない情報が紛れると、一気に信用が低下します。
分析をする上で真っ先に決めるべきは、「何がわかれば結論づけられるか?」です。ゴールがわかれば、作業時間も短くなって一石二鳥ですね。
以上で、正しくデータを見るための方法についてお話しました。データアナリストという職業が注目されている昨今では、正しくデータを読めるだけでもアピールできるスキルになるでしょう。
ぜひ今回の内容を参考に、バイアスやステレオタイプから脱却してみてください。そして真理にたどり着きましょう。
参考:Value Proposition Design アレックス・オスターワルダー、イヴ・ピニュール他
この記事が気に入ったらサポートをしてみませんか?