データ解釈学
要旨
データの取得、分析、解釈、活用の段階で知っておくべき技術を網羅的に解説
ポイント
観測は簡単ではない
■データの観測とは、対象の情報を引き出す手続きである
・観測によって得られたデータは何らかの意味で歪められている(バイアス)
■データ分析の質には、データの質がそのまま反映される
・Garbage in, garbage out.
■知りたい情報をそのまま測定できるとは限らない
・測れる何かで代替することが必要
・定義の採用(概念的定義、操作的定義)
・誤った解釈をしないために重要なこと
1.観測によって測られているものは何なのか
2.「本当に測りたいもの」の中で捉えられていない要素は何か
■扱えるデータの量と細かさにはトレードオフが存在する
誤差とばらつき
■誤差には大きく分けて、ランダム誤差とバイアスの二つがある
・ランダム誤差=変化する誤差
・バイアス=一定の誤差
■ランダム誤差のばらつきを評価するために確率分布を利用する
・確率分布によるデータ表現ではばらつきが「誤差」か「値のバリエーション」かを区別する必要がある
■ランダムな要素の和は正規分布に従うことが多い
■ランダム誤差のばらつきは、平均化や統計解析によって対処する
データに含まれるバイアス
■4つの重要なバイアスとして、測定基準に関するバイアス、選択バイアス、観測介入に起因するバイアス、データの扱いに起因するバイアスが存在する
・測定基準に関するバイアス:自閉症と診断された児童数
・選択バイアス:戦闘機の生存バイアス
・観測介入に起因するバイアス:上司が関心を示していることによる労働者のモチベーションUP
・データの扱いに起因するバイアス:チェリーピッキング
■一見して一定に見える測定基準も、事実上一定になっていないことがある
■データを取得できているということにより、データが偏ることがある
■データ観測のプロセスが対象に影響を与えてしまうことがある
■データを扱う人間は、さまざまなレベルでデータを歪めることがある
交絡因子と因果関係
■相関と因果関係は異なる概念である
■絡み合った変数である「交絡因子」をコントロールすることが分析の要である
・交絡因子:原因となる変数と関連し、かつ結果の変数と因果関係を持つ要因
■ランダム化比較試験は、因果推論のための強力な手法である
・ランダム化比較試験:集団を対象として分析を行い、着目する変数の平均的な効果を評価することを目指す
■状況に応じて回帰分析や傾向スコアマッチング、回帰不連続デザインなどを用いることができる
・傾向スコアマッチング:複数の交絡因子をひとまとめにした総合得点のようなもの
データサンプリングの方法論
■母集団のごく一部のデータからでも、理想的なサンプリングによって一定の範囲内での推論を行うことができる
■許容されるコストとサンプリングバイアスを考慮して、サンプリング方法を選択する
・単純無作為抽出法
・系統抽出
・層化多段抽出法
・クラスター抽出
・無作為でない抽出法(有意抽出、便宜的抽出)
■現実の調査や実験では、分析対象を選ぶ段階で様々なバイアスが生じる
データの扱い
■データ分析における間違いは、大きな損害を生むことがある
・単位のチェック
・外れ値のチェック
■行った処理は後で確認できるよう、わかりやすく管理しておく
■個人情報の取り扱い、セキュリティを含めたデータ管理計画が重要
一変数データの振る舞い
■記述統計を計算することで、データの大まかな性質を特徴づけることができる
・記述統計量:平均値や標準偏差といったデータの特徴を表現する量
■分布を可視化する方法は、目的に応じて選択する
■理論分布との対応で、データ分析メカニズムを操ることができる
・理論分布:幾何分布、二項分布、ポアソン分布など
■時系列データ特有の時間的な構造に注意する
変数の間の関係を調べ
■二つの群の大小を比べるときはにはばらつきの情報が必要である
■仮設検定によって結果がどれだけ「たまたまでないか」を評価する
■相関の有無は無相関検定を利用して総合的に判断する
・無相関検定:「相関係数がr=0である」ことを帰無仮説とする
多変量データを解釈する
■探索的分析を行う際には、多重検定の問題に注意する必要がある
・検定の多重性の問題:仮設検定を何度も繰り返すことで発生する問題
■複数のものを比較するときには分散分析が便利である
・分散分析:着目した要因が観測値に影響を与えているかを評価
■因子分析や主成分分析、クラスタリングといった手法により、データ全体の様子を掴むことができる
・因子分析:各々の変数の背後に存在する根源的な要因を特定すること
・主成分分析:単にデータが少ない変数で表現する
■目的やデータの種類に応じて、適切な手法を使い分けることが重要である
・探索的な分析がしたい
1. 特定の変数を説明する場合
偏相関係数、因子分析、クラスタリング
2. データ全体の様子が知りたい場合
多次元尺度構成法
・説明変数としての影響を見たい場合
ⅰ. 目的変数と説明変数が量的変数
重回帰分析
ⅱ. 目的変数がカテゴリ変数、説明変数が量的変数
ロジスティック回帰
Ⅲ. 目的変数が量的変数と説明変数がカテゴリ変数
分散分析、多重比較分析
Ⅳ. 目的変数と説明変数がカテゴリ変数
カイ二乗検定、ロジスティック回帰
数理モデリングの要点
■「数理モデル」は、変数の振る舞いや関係性を数理的に模擬したものである
■数理モデルを用いて得られた分析結果の信頼性は、土台となる仮定の妥当性に大きく依る
■数理モデルの主要な利用法として、理解志向型モデリングと応用志向型モデリングがある
・理解志向型モデリング:対象のメカニズムを理解することを目的とする
・応用志向型モデリング:予測やデータ生成など応用の性能を追求する
■数理モデリングによって予測しやすい問題と、しにくい問題がある
データ分析の罠
■データに対して行う操作によって異なる印象を与えてしまうことがある
・実数と割合
・シンプソンのパラドックス:安易に割合で考えると間違えてしまうこと
・平均値の振る舞い
・極端な値
・不用意な切り取り
・グラフを歪める
■手元のデータが全てではなく、広い視点でデータ分析を捉えることが重要
■「このデータからは結論が得られない」という結論も重要である
■目的に応じてデータの準備、分析結果の評価方法は異なる
・データの記述、探索
・予測
・因果推論
データ解釈の罠
■再現性のある結果が得られることは当然ではない
・HARKing:結果に沿うような仮説を立案すること
・p-hacking:有意水準を下回るp値を得るために人為的に操作を行うこと
■同じデータを分析しても分析のアプローチによって結論が変わることがある
■人間には対象から自然とパターンを見出し、理由付けを行う傾向がある
・前後即因果の誤謬
・ギャンブラーの誤謬
■さまざまな認知バイアスがデータ解釈を歪める
・利用可能性バイアス
・確証バイアス
・文脈の効果
データ活用の罠
■目的に応じてデータ分析やモデリングの方針は大きく異なる
・理解か予測か
■データを取得するプロセスも、十分に検討する必要がある
■データ分析をシステムとして実装する際には、その副作用に気を付ける
この記事が気に入ったらサポートをしてみませんか?