見出し画像

データ分析の力の読書メモ

データの見方について、本当に自分は正しく読めているのか。そんな疑問があったのでこの本を手に取ってみた。

知っていることも多いが、正確に理解しているかと言われるとやはり怪しい。教授もこれが完璧に理解できているなら先生になれるというくらいだ。自分如きは甘くみないできちんと学ぼうと思う。

なお、まだ途中なので、読み進めていくが、詳しい人いたらぜひ教えてほしいです。

  • 相関関係は、それぞれのデータが関係があるような動きをすること

  • 因果関係は、あるデータが動くことで他のデータが動くこと。双方向とは限らない

  • 因果関係を証明するのは思ってるより大変。本当にその影響だけで、他の数値が動いているかはわからないためだ。

  • そのためRCTは有効な手段の1つ。しかし、何も介入しない場合、それぞれが同じ状態・数値を示す必要があるが、それを実際に確認することは難しい。そのため、それぞれの母集団の形成が本当に重要である。

  • ランダムが重要。地域で区切るとその地域の影響が出るし、立候補などで決めると意欲の違いが出る。本当にそれぞれがほぼ同じ母集団にするのが一番難しい。

  • それを減らす1つの要素がサンプル数。多いほど平均に収束していく。

「複数期間のデータ」を生かすパネル・データ分析

  • パネル・データ分析は、複数期間のデータを分析する際にRCTが実施できない場合に用いられる自然実験手法の一つ。

  • パネル・データ分析を活用する場合の条件は
    ①介入が起こった時期の前後のデータが、介入グループと比較しグループの両方について入手できること
    ②「平行トレンドの仮定」が成り立つことを検証できること
    ③2つのグループの平均値の推移をグラフ化することで介入効果の平均値測定が行えること
    である。

  • 行う場合、何かの介入がない場合、それぞれが並行に推移していないとその介入の効果の影響に説得力がある説明ができない。そのため、パネルデータ分析を行う上では、一定の金額以上に優遇するという場合、その金額を境にしたとしてもそれぞれが同様の推移で並行して動いていることを確認できなければその介入の影響は適切に測れていない可能性がある。

  • パネル・データ分析のメリット①は並行トレンドが成り立つ限り様々な状況に適用可能であること

  • パネル・データ分析のメリット②は並行トレンドの過程が守られる限りは、介入グループと比較グループに「事前的な違い」が存在することも問題にならないこと

  • パネル・データ分析のメリット③はパネルデータ分析で測定できる因果関係は、介入を受けた全ての主体の介入効果であること

  • デメリットとして1点目は並行トレンドの仮定を得ることが難しく多くの状況では成り立たないこと。2点目は複数期間のデータを介入グループと比較グループの両方について収集する必要がある。2点目は、基本的に介入事項があるグループ(補助金、優遇などを得たグループの情報)の情報は収集するが、比較グループの情報は収集しないことが多い。

データ分析をビジネスや政策形成に生かすために

  • シリコンバレーではRCT分析が常に行われている

  • アメリカ連邦政府内でも「エビデンスに基づく政策形成」が提唱されている。なお、数字やデータで示すことがエビデンスではなく、Xという政策がYという結果にどう影響したかという因果関係を科学的に示すデータ分析し、政策形成をすることまでを含む

  • エビデンスに基づく性差のために、
    ①RCT(ランダム化比較試験)などの厳密な化学的手法により政策が評価され、政策効果の因果関係がデータ分析により解明される仕組みを作る
    ②政府が持つ詳細な行政データを研究者に利用させ分析させる体制を整える

  • データ分析をビジネス戦略や政策形成に生かすための鍵として、第1にデータ分析専門家との協力関係を築くことである。コンピュータにデータが上がってくる前の段階も含めたスキルや経験が重要になり、そのようなスキルを持った人間と協力することで効率的な分析を可能にする。第2にデータへのアクセスを開くことである。データアクセスの方法として、常に公にする、所定の手続きを踏むことでアクセスできる、信頼できる専門家にだけ提供するなどがある。

企業とデータ分析者のパートナーシップ例
事例1:税込み価格を表示すると、税抜き価格を表示した場合に比較して平均的に8%売上が下がる
事例2:大学と企業が協力し、分析を社外の専門家にアウトソースする
事例3:会社が積極的にパートナーに提供することで適切な価格設定を実現する

公的機関とデータ分析者のパートナーシップ例
事例1:プログラムに参加することによる犯罪率低下の効果測定
事例2:企業・政府機関・研究者の産官学パートナーシップによって進められた取り組み

データ分析の不完全や限界を知る

  • データ自体に問題がある場合は優れた分析手法でも解決は難しい。データの問題例としては①データ測定に問題があり、数値が正しく記録されていない、②観測値に大量の欠損値が見られる、③本来はあらゆる世帯から取得すべきデータが、非常に偏ったサンプルからしか取れていない、などである。

  • 適切なデータを作るという作業は、分析手法を考える前提条件として必要な作業

分析結果の「外的妥当性」と「内的妥当性」(図表7-1がサマリ)

  • 分析した結果、因果関係を示せれば、それは「内的妥当性」は確保されたことになる。

  • しかし、その結果が、ほかにも適用できるかは別の問題である。

  • 実験や自然実験で得られた分析結果が、分析で使われたサンプル以外にも適用できるのかという問題を「外的妥当性」という。

  • データ分析の結果が分析で対象とされた主体以外へも適用可能なのか、という「外的妥当性」の問題は非常に重要であり、外的妥当性と内的妥当性の両方を加味した場合、どの分析手法が優れているかは状況によって異なってくる。

「出版バイアス」と「パートナーシップ・バイアス」

  • 外的妥当性の問題の関連

  • 影響が0で合った実験結果も有用な科学的発見がある。しかし、学術論文として売り出しにくいと判断されることを嫌い、さも効果があるような脆弱なデータ分析を誘発する可能性がある

  • 協力してくれそうなパートナーを優先的に選んでRCT分析を行うことで外的妥当性からみてバイアス・偏りのある分析結果が出てしまうこと。

介入による「波及効果」が存在する場合の注意点

パソコンを使う児童と使わない児童の影響を実験したい場合、パソコンを使う児童が使わない児童に貸してしまい、介入効果を正しく評価できない状況が生まれることがある。

一般均衡的な効果が存在する場合の注意点

規模の大小で効果が異なることがある。
特に大きい場合は、それ以外の影響もある可能性があるため、純粋にその介入効果により変化したとは限らない。
そのため、外部妥当性の問題が生じやすい。


この記事が気に入ったらサポートをしてみませんか?