見出し画像

「真実」へのとどめの一撃:統計学

研究背景や測定方法は違えど,実験結果や結論を考察する(仮説検証・再現性確認)ためには統計学が必須であることは,どの分野であれ,共通である.

統計学を学ぶことは,そうした世の中の重要な研究結果を解釈する術を与えてくれるばかりか,真実により一歩近づくための最速で最善の手段となる.

データから何らかの違いを生み出す原因を導出でき,説得力を飛躍的に高める統計学は,サイエンスのみならず,ビジネスでも強力であり,もはや最強の学問であると著者は説く.

良く言えば長年の勘や経験,悪く言えばバイアスに囚われず,データに対するフェアな解析から真実を見極めること(統計リテラシー)で,自分の人生を豊かにし,自由にコントロールできている幸福感を与える.

第一章 なぜ統計学が最強の学問なのか?

データを集めて分析することで,最速で最善の答えを出すことができるから

情報技術(IT)の発展が「統計学のパワフルさ」を引き出し,ほとんど全ての学問に関わる研究者が統計学を使っている.

多くの研究結果は統計学によって裏付けられている.統計リテラシーは,それらの研究が明らかにした真実に直接アクセスすることを可能にする.

先日書評した「イシューからはじめよ」において,ストーリーラインや絵コンテの作成段階で,イシューの仮説を本当に解決しうるかを判断するのに,統計学が決め手になると思った.

絵コンテの段階で,手法に加えて,評価するための統計的手法も検討するとより強力な方法になると感じた.


第二章 サンプリングが情報コストを激減させる

よくある直観:全部調査せずにサンプリングで本当に十分なのか?

サンプリングによって,どの程度精度が下がるのか,そして実際の判断や行動にどのような影響があるかが問題.

「サンプリングが偏って,調査があてにならないものになる確率」は0ではないが,奇跡とも言えるくらい小さい確率となる.

ビッグデータをビッグなまま扱うコストはそのリターンに本当に見合うものか考える.つまり,正しい判断に必要な最小十分のデータを扱うことが重要.

適切なサイズのサンプリングデータを使って,探索的解析で仮説の目星をつけろ.

第三章 誤差と因果関係が統計学の肝

その解析はかけたコスト以上のリターンをもたらすような判断につながるのか?

「集計」だけでは意思決定の根拠には不十分で,都合よく解釈しようとする人間の認識的欠陥(バイアス)を統計学は補うことができる.

「十分なデータ」をもとに「適切な比較」を行うことが統計的因果推論の基礎.

データがどれほどの誤差を持つか,それは真の値に対してどれほど影響を持つかを理解する.

その誤差が意味のある偏りなのか,それとも偶然でもこれぐらいの差は生じるのかということを確かめたい.

最終的に「この結果は偶然得られたとは考えにくい」と判断したい(仮説検定).

p値:実際には差はないのに偶然によってたまたま差が生じる確率

統計学の基本的な解析は「適切な比較」と「その誤差とp値」.

次の問題は「どのようなデータを収集し解析するか」であり,ここにセンスが問われる.

その答えは「目指すゴールを達成したもの」と「そうでないもの」との違いを比較すること.

ビジネスにおいて解析すべき指標は「直接的な利益」か「そこに至る因果関係の道筋が明らかな何か」

ただし,因果関係には向きがあり,間違った因果関係の向きでは,p値がいくら小さくても意味がない.

既存データからなんらかの誤差とは考えにくい偏りを発見すれば,それは貴重な示唆に富む仮説になる.

統計学の第一の意義:有望な仮説を抽出するスピードと精度

因果関係の向きがわからないというのは,比較している集団が同じ条件でない,つまり「フェアではない」ということに由来している.

フェアな比較を実現するための統計学の解決法.

1.「関連しそうな条件」を考えうる限り継続的に追跡調査し,統計学的な手法を用いて,少なくとも測定された条件については「フェアな比較」を行う.

2.解析ではなくそもそものデータの取り方の時点で「フェアに条件を揃える」

現時点で人類がたどり着ける最も正しい真実を知るためには,統計学的に妥当な実証実験が不可欠である.

第四章 「ランダム化」という最強の武器

よくある直観:ランダム化は思考停止のようだが,本当に役に立つのか?

現代統計学の父ロナルド・A・フィッシャーの「実験計画法」(1935年)の中の具体例:「ちがい」がわかる婦人.

婦人が本当に「紅茶を先にいれたミルクティー」か「ミルクを先にいれたミルクティー」を識別できるのかという命題.

2種類のミルクティーを10杯用意し,ランダムに婦人に差し出す.

例えば,婦人が5杯連続で正解するなら32分の1(〜3.1%)だし,10杯連続で正解する確率は1024分の1(〜0.1%)である.

こうして,婦人の回答結果から得られた確率を,婦人がでたらめに回答して正解する確率(p値)と比較して,もし優位に低ければ「婦人は偶然とは思えないレベルでミルクティーの違いがわかる」と結論を出すことができる.

このランダム化比較実験により,人間の制御しうる何物についても,因果関係が科学的に検証可能になり,「実験とはなにか」という考え方が進歩した:「誤差のある現象」を科学的に扱えるようになった.

誤差への3つのアプローチ

1,実験データを使わず,仮説や事例により理論モデルを作る.

2,上手くいった事例のみを結果として報告する.

3,ランダム化を用いて因果関係を確率的に表現しようとする.

「諸条件をランダム化してしまえば,平均的に比較したい両グループ間で同じになる」

科学とは正しいことを最大限謙虚に,そして大胆に掘り下げようとする姿勢.

「やってみなければわからないこと」に対して,小規模なランダム化比較実験により,小さなコストとリスクで早く,安く,確実な答えを出すことができる.

統計学的な裏付けがないと,物事の正誤を判断するのは難しい.

正解がないのであれば,「とりあえずランダムに決めてしまう」という選択肢の価値はもっと認められるべき.

決定をランダムにして,継続的にデータを得ることができれば,後で正確にそれがよかったのか,評価することができる.

私たちにできることは,まずランダムさによって,運を天に任すことであり,そして統計解析によってその天の思し召しに耳を傾けることだけ.

ランダム化の3つの壁

1,現実

サンプルサイズが現実的に十分取れない.条件を制御することが現実的に難しい.

2,倫理

ランダム化によって,人為的にもたらされる害がある.又は不公平が生じる.

3,感情

ランダムに決められること自体に対する嫌悪感.

ところで,余談で述べられていた「統計学では解析できない恋愛」という話が面白かった.

生涯1人の女性とだけ交際し結婚した男性の恋愛遍歴について,誤差も標準偏差もなく,その女性が平均値であり,最小値であり,最大値であるということ.なんかロマンチックだね.

第五章 ランダム化できなかったらどうするか?

ランダム化せずにフェアな比較を行うには,データ取得,適切な条件調整が重要.

ケースコントロール研究:ケース(関心のある事例)をコントロール(その比較対象,ここでは,関心のある事例とそのリスク要因の有無以外は条件が近い)を比較する研究

層別解析:ケースコントロールしつつ,調査対象を様々な軸でグループごとに比較する解析.

回帰分析:データ間の関係性を記述する,あるいは一方のデータから他方のデータを予測する数式を導出する分析.

フィッシャーのもう一つの業績:「無制限にデータを得たら,わかるはずの真に知りたい値」を真値と呼び,たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを数学的に整理することで,無限にデータを集めることなく適切な判断を下せるという考え方.

フェアな比較に基づき,違いを生む要因を見つけるための統計学ツール:一般化線形モデル(広義の回帰分析)をまとめた一枚の表(P170).

分析軸(説明変数)と比較したいもの(結果変数)の種類や数によって,適用できる統計解析の種類がわかる.

画像1

グループ間の平均値も,回帰係数も,全く同じt分布に従うばらつきを持つことが証明されている.

シンプソンのパラドックス:全集同士での単純比較は,その内訳となる小集団同士との比較の結果と矛盾することもあるということ.

重回帰分析:説明変数すなわち予測したい結果に影響する要因が複数ある状況へ拡張された回帰分析(層別解析を行わずにシンプソンのパラドックスを回避できる).回帰係数の推定について「変数間はお互い相乗効果のない状態で平均的にどういった違いが生じているか」という重要な仮定をおいている.

ロジスティック回帰:0か1かという二値の結果変数を変換し,連続的な変数として扱うことで重回帰分析を行えるようにしたもの.回帰係数をオッズ比(何倍そうなりやすいか)で示す.

複数の回帰係数は「お互いに相乗効果がなかったとすれば」という仮定のもと,説明変数が結果変数にどの程度の影響を与えるかを示している.

回帰モデルを使う上での注意点が「交互作用が本当に存在しないか」である.

疑わしい交互作用は2つの変数を掛け合わせた新しい説明変数(交互作用項)として回帰モデルに含めて回帰係数を推定することができる.

赤池情報量規準(AIC):どのような説明変数あるいは交互作用項を含んだモデルが一番データの当てはまりとして適当かを判断する指標.

シンプルに「何が最も結果変数に違いを生むのか」がわかってこその統計学.

傾向スコア:興味のある2値の説明変数について「どちらに該当するか」という確率.簡単に限りなくランダム化に近い因果関係の推定が行える.

様々な諸条件から推定される確率(傾向スコア)が同じ集団同士で比較すれば,それらの諸条件が対象項目に影響することはない.

第六章 統計家たちの仁義なき戦い

それぞれ分野ごとに目的や哲学が違うため,統計学に対する考え方も違う.

6つの特徴的な分野:社会科学,疫学・生物統計学,心理統計学,データマイニング,テキストマイニング,計量経済学.

社会科学者は「可能な限り偏りなく,求められる誤差の範囲に収まる推定値を最も効率よく得るためにはどうすれば良いのか」に執心する.

疫学・生物統計学者は「ランダムサンプリングによる正確な推定値」よりも「ランダム化による妥当な判断」を重視する.

心理統計学者は,度重なる因子分析や命をかけた質問紙尺度で「心」や「精神」といった目には見えない抽象的なものを測定する.

データマイニング:有用で既知でない知識をデータから抽出する自明でない一連の手続き

非線形で多変数の関係性がデータ間に存在するなら,回帰モデルの性能は低め.

予測や分類それ自体がゴールなら,データマイニングは有効であるが,予測モデルから今後何をすべきか議論するなら,回帰モデルが有効.

テキストマイニング:自然言語で書かれた文章を統計学的に分析すること.

形態素解析:文章を単語ごとに分析し,どのような単語が何度使われているかを集計する作業.

テキストマイニングはツールとして利用自体は誰にでも使えるからこそ,どう価値を生むかについて,テキストマイニング自体の統計リテラシーが必要となる.

計量経済学者は,交互作用項を含む説明変数の選択についてより慎重になる傾向.

計量経済学者は「演繹」を繰り返すために,あらゆる手段を用いて,より当てはまりの良いモデルを追求する.

帰納とは個別の事例を集めて一般的な法則を導こうというやり方,演繹とはある事実や仮定に基づいて,論理的推論により結論を導こうというやり方.

統計学は帰納的推論によりデータから一般的な法則を導く.一方で計量経済学は(物理学に似て)仮定や理論から演繹を繰り返すことで個人や社会の均衡状態について説明する.

大事なのは,推論された結果だけではなく,どのような仮定が背後のあり,またその仮定がどの程度確からしいかを理解すること.

分野をまたいで存在する「確率自体の考え方」:ベイズ派と頻度論派の対立

事前に何らかの確率を想定する(ベイズ派)とそうしないか(頻度論派)

頻度論派は確率を「何回中の何回」といった「頻度」で考える.

ベイズ派は事前確率と事後確率を考える.

事前確率という仮定をおくとデータからどういったことが言えるかという演繹が可能になる=計量経済学との相性が良い.

限られた情報と仮定を組み合わせる「効率のよさ」が求められるならベイズ.十分にデータを利用でき,可能な限り間違う可能性を減らしたいなら頻度論.

最終章 巨人の肩に立つ方法

真実にたどりつくためには「全力」よりも「最善」

統計リテラシーが高くなると,論文の中の統計を読み解くことができ,巨人の肩に乗りやすい.

基礎実験はその積み重ねによって実証すべき重要な仮説を生み出してくれるが,そのまま人間や社会に適用できるほど科学は単純なものではない.

最善のエビデンスは「系統的レビュー」と「メタアナリシス」

統計リテラシーによって手に入るもっとも大きな価値は自分の人生を自分がいつでも最善にコントロールできるという幸福な実感.

この記事が気に入ったらサポートをしてみませんか?