【読了】定量分析の教科書

はじめに

数字もビジネスの言語のひとつ

第Ⅰ部 分析の考え方

料理にとっての素材と調理と同様に、意思決定には事実と分析の質が重要

第1章 分析の本質

数字との付き合い方

・ビジネスを行うためには、目的に到達するまでの「手段と結果」(因果関係)の鎖(ストーリー)を構築する必要がある
・ストーリーに実現可能な具体性を与えられるのが「数字」

分析とは何か

・愛の値段をどう見積もるか?1年間の収入から試算できる?
・問題解決=AsIsとToBeのギャップ、問題を作ることはリーダーの役割

What-Where-Why-Howフレームワーク
①比較:AsIsとToBeを比較してギャップ=問題を識別する(What)
②特定:問題はどこに局在しているのか(パレートの法則)、ターゲットを特定する(Where)
③予測:どうすればギャップが縮まるか因果関係を予測する(Why)
④行動:結果をもたらすための原因を作る(How)

何と何を比較するのか

・比較対象を間違えてしまうことが多い
・闇雲に比較するのではなく、仮説を検証するという目的を持って比較することが効果的

生存バイアス
・生存要因を特定したい場合、生存した場合と生存しなかった場合を比較しなければならない(生存した場合の差異を比較するのは誤り)
・例:多くの成功法則には生存バイアスがかかっている、何故ならば成功者は経験論を語りたがり、失敗者は語りたがらないから

ランダム化比較実験(RCT)
・因果関係を特定したい場合、原因だと推測される要因以外の条件は全くランダム(違いを平均化する)にする
※本来は条件を揃えるのが理想的だが、現実的に困難なため、ランダムにする
・例:新薬試験(新薬投与組とプラセボ投与組を比較)、広告効果(広告あり購買数と広告なし購買数を比較)、WebサイトにおけるA/Bテスト

第2章 分析と仮説思考

仮説とは何か

仮説思考を行うメリット
・成果を出すスピードが上がる:寄り道(仮説検証に関係ない仕事)をしなくなる
・今回仮説が外れた場合、次回の仮説が当たる可能性が増える:仮説構築の経験が積める
・仮説の検証は他者に分担できる:一番経験が必要なのが仮説立案であるため

仮説思考の仕事の進め方

仮説思考のプロセス
①目的(問い)を押さえる
②目的を果たすための仮説を立てる
③データを集める
④仮説を検証する

コンサルタントは未経験業界でもなぜ短期間で成果を出せるのか
・コンサルタントは、未経験な業界のプロジェクトに参加することが多い
①最初の1週間でクライアント業界に対する知識をインプットする
・収集資料の読み込み
・社内経験者へのインタビュー
・クライアント企業OBへのインタビュー
②初期仮説を立てる
③仮説に基づき最終報告資料の原案(キーメッセージ)を作成する
・各メッセージをサポートする根拠をどう収集するか(インタビュー、データ分析、など)は後で考える
④プロジェクト期間を使って資料を検証していく
・メッセージ(仮説)が妥当かどうかを仮説検証する
・検証はチームで分担する

使える仮説とは、
・行動を起こせるもの
・その行動を起こすと、望む結果に繋がるもの(因果関係の裏付けがあるもの)

仮説の表現方法
PICOフレームワーク:EBM(根拠に基づく医療)の考え方
・Problem:対象(患者)は
・Intervention:何をすると
・Comparison:何と比べて
・Outcome:どうである
例:
P:小学生は
I:キシリトールガムを噛ませると
C:歯磨きしかしない場合に比べて
O:虫歯ができにくい

仮説構築力

仮説構築力=仕事への問題意識×情報の引き出し(仮説の種)
・現状を変化させたいという気持ちがないと、そもそも仮説構築の動機がない
・アイデアとは既存知識の新しい組み合わせに過ぎない(帰納法を学んでも、業務知識がないとアイデアは生み出せない)
・情報の引き出しを増やす方法:経験を積む、体系的に学習する、情報を仕入れる

データ収集の考え方

データ収集の目的:2つを組み合わせる
・仮説探索(初期段階):仮説を新たに作る
・仮説検証(後期段階):事前に作った仮説の妥当性を検証する

確証バイアス
自分の先入観(仮説)を支持するデータのみに着目してしまう(好都合なデータばかりを収集してしまう)こと

実際にデータを集めに行く

・既存データを集める:Web検索、商用データベース(SPEEDAなど)、文献、政府統計、リサーチナビ
・未知データを集める
 ・見る:現場観察、実地測定
 ・聞く:アンケート、インタビュー
 ・実験する:A/Bテスト、特定店舗のみでの実験運用

中心化傾向
アンケート回答者は、極端な回答を避ける傾向があるため、度合いを示す選択肢は奇数ではなく偶数にするべき

第3章 分析の5つの視点(比較の軸)

インパクト(大きさ)

数字遊びにならないために
・そんなに手間と時間をかけて分析する(分析の精度を高める)意味はあるのか?
・分析しなくても意思決定できるのではないか?

ギャップ(差異)

比較対象と比較軸を明確にする
・絶対値を使うのか?比率を使うのか?
・フローを使うのか?ストックを使うのか?

トレンド(時間的な変化)

・一貫した傾向
・変曲点(傾向が変わる点)
・外れ値(傾向が当てはまらない点)

・最も確実性が高い予測は、人口予測

ばらつき(分布)

社会現象には偏りがある
・Paretoの法則
・Zipfの法則:Pareto則を順位で表現したもの
・冪乗則:Pareto則を確率分布で表現したもの

パターン(法則)

・法則に沿った点
・変曲点(傾向が変わる点):臨界点(クリティカルマス)、量質転化の法則(量の蓄積が閾値を超えると質的な変化となる)
・外れ値(傾向が当てはまらない点)

機械学習が適応できる領域

第Ⅱ部 比較の技術

データの種類
○量的データ
・比率データ:絶対的なゼロあり、四則演算が可能、金額
・間隔データ:加減のみ可能
○質的データ
・順位データ:大小関係はあるが間隔は比較できない、顧客満足度
・カテゴリデータ:職業、出身地

第4章 目で見て「比較」してみる(グラフ)

目は最高の分析ツール

Nightingaleの鶏頭図

グラフは言語である

メッセージをグラフに翻訳するためには経験が必要
・ギャップ(最も一般的):横棒グラフ
・トレンド:縦軸グラフ、折れ線グラフ
・ばらつき:ヒストグラム、円グラフ、帯グラフ
・パターン:散布図

分析で力を発揮するグラフ

・ヒストグラム:階級数と階級幅により形状が変わってしまうので、Sturges公式を使う
・ウォーターフォールチャート:構成要素の内訳や経時変化を示せる(円グラフではプラスの内訳しか示せない)
・パレートチャート:棒グラフと折れ線グラフ(重要性の順番と累積構成比を併記するため)を組み合わせたもの、優先的に着目すべき集団が把握できる
・時系列グラフ:変動要因を分ける
・散布図:2変数の相関関係(因果関係を推測できる)、集団のグルーピング分類ができる
・対数散布図:限界効用逓減の法則

第5章 数字に集約して「比較」してみる

・代表値:平均値(相加平均、加重平均)、中央値、最頻値
・散らばり:分散、標準偏差

データの中心はどこにあるのか(代表値)

・相加平均=単純平均=算術平均

・加重平均:TOPIX、消費者物価指数CPI、WACC

・幾何平均(年平均成長率CAGR):年平均利回り

データはどのように散らばっているか(散らばり)

・標準偏差は単位の次元が元の量と同じなので使いやすい

第6章 数式に集約して「比較」してみる(回帰分析とモデル化)

・回帰分析:帰納的
・モデル化:演繹的(フェルミ推定など)

散布図と相関係数

相関関係が因果関係とは限らないケース:幸せだから成功するのか?成功したから幸せなのか?
・時間的順番が逆である
・隠れた変数がある(擬似相関である)

因果関係の説明が不要な場合もある
・理由はともかく、単純に売れれば良い場合(ECサイトのレコメンデーション)など

単回帰分析

最小二乗法

・重相関R=相関係数
・重決定R^2(決定係数%):回帰式の当て嵌まりの程度(説明力)、数学的な意味は、説明変数が「目的変数の分散」の何%を説明できているか

重回帰分析

・補正R^2(自由度調整済み決定係数%):重回帰分析の場合は、回帰式の選択にこれを使う(決定係数%ではなく)。決定係数は数学的な特徴として、説明変数の数が増えるほど大きくなってしまうため、変数数を考慮した調整が必要になる。
・P値(危険率):説明変数が適切でない確率。一般的に、0.1より大きい場合は説明変数から除外して再分析する。

ダミー変数

ロジスティック分析:質的変数を目的変数にする
・生存/死亡
・発症しない/発症する
・受注できる/受注できない

どの説明変数が一番効いているのか?
・偏回帰係数の絶対値は、目的変数への寄与を示しているわけではない(絶対値は単位に依存するため)
・標準偏回帰係数(平均0、標準偏差1に標準化されたもの)の絶対値が、目的変数への寄与を示している
・Excel標準機能では標準偏回帰係数は出力されないため、t値の絶対値が寄与度の指標になる
・寄与度だけではイメージしくい場合、実際の目的変数の最大値/最小値を算出して差分を比較した方がいい

サンプル数は、最低でも、説明変数の10倍程度が必要

予測精度は補正R^2で判るが、ビジネス上理解しにくければ、MAPEを使う方法もある

重回帰分析に使う説明変数をどう選択するか
・仮説ベース:説明可能性が高い
・探索ベース(自動選択):可能性のある変数を全て投入し、データ分析ツールの機能を使って最適なものを自動選定していく(Excelではマニュアルで変数減少法していく)

Excelによる変数減少法
①分析ツールの相関を使って相関行列を作る
②相関係数が0.9以上の変数は、どちらかを変数から外す(原因と見做せる方を残す)
③残りの変数を使って回帰分析を行う
④結果のうち最もP値が大きい説明変数を除いて回帰分析を行っていく(説明変数が1個になるまで繰り返してモデル候補を作成する)
⑤補正R2が最大となったモデル候補を選択する
⑥モデルの各説明変数のP値が10%未満であることを確認する

モデル化

フェルミ推定
・利益=(売価−変動費)×販売数量−固定費
・利益=(顧客単価−顧客獲得コスト−顧客原価)×顧客数

まとめ

・分析の目的は、因果関係を把握し、行動を起こすことで、望ましい未来に変えること
・分析の手段は、比較

プロセス
視点
アプローチ

付録 回帰分析に関する補遺

多重共線性(マルチコ、multicollinearity)
・相関関係の強い説明変数を複数使ってはいけない

回帰係数
・説明変数が多くなるほど回帰係数の解釈は難しくなる(ビジネスでは説明変数間に相互関係があることが多いため)

この記事が気に入ったらサポートをしてみませんか?