「それ、根拠あるの?」と言わせないデータ・統計分析ができる本
はじめに
このnoteでは「「それ、根拠あるの?」と言わせないデータ・統計分析ができる本」という本の重要なポイントをピックアップしてまとめています。
章ごとに重要なポイントを記載しているので、より詳細に知りたい方はぜひ末尾のリンクから手にとって読んでみてください。
序章 データ・統計分析のための発送とコツ
■実務のデータ分析において重要なことは「数字センス(コツ)」と「思考パターン」である
■受け手側への説得力を意識すること
■有効な分析手段に範囲をフォーカスし、分析に必要な思考パターンをしっかり身に付けること
■仮説アプローチは「目的」→「仮説」→「分析」の流れで進める
■仮説アプローチのメリット
✔ 無駄な分析を避けることができる
✔ 分析の目的が明確になる
✔ 大局的な視点で説得力のある答えを引き出しやすい
■仮説アプローチの注意点
✔ 見えない課題を見逃すリスクがある
✔ 仮説を立てた人のバイアスに左右される
■仮説を効果的に分析につなげるための4つのポイント
✔ モレなくダブりなく仮説を立てる(MECE)
✔ 現状の制約条件に捉われない
✔ 複数の仮説を考えてみる
✔ 最初から100点を狙わない
■仮説を検証するためのピラミッドストラクチャを使用して受け手側に伝わりやすくする
■ラフな分析を行って仮説の優先度を見極めることで効率的に仮説検証が行える
■厳しい制約条件下で多くの情報や可能性を引き出したいなら「網羅的アプローチ」も検討すべき
第1章 効果的なデータ分析のための集め方と分析の視点
■仮説が正しくなかった時のために予め広い視点でデータを集めておく
✔️ 自社製品について分析する際に他社製品についても同様のデータを集めておく
✔️ 月次データをとる際に週次や日次でもデータを取得しておく
■データ収集時から「時間」「場所」「顧客」などの軸を意識して幅広くデータを集めておく
■何でもかんでもデータを分解すれば良いというものではない
✔️ 細かくデータを分析することによって大局観を失われてしまう
✔️ 分析にコストがかかる
■目的に合った「データの範囲」を意識する
■データを用いて説明する際にそれぞれの範囲について合理的な考察をする
✔️ 「月単位ではXXXという特徴ですが、週単位では◯◯◯という結果が見られます。これは△△△という要因によるためです」
■「外れ値」は理由を考えて処理する
✔️ 明らかにその他のデータから外れた傾向を示すデータはそのデータ固有の問題である理由を考える
■散布図を利用して外れ値を発見する
■データを加工してデータの不足を補う
✔️ 絶対値を「比率」に変える
単位(人工、世帯、年月日)、属性(男女、年齢)、時間(年度平均)などが挙げられる
✔️ 要素ごとに分解してデータを増やす
年齢だけでは何も得られない場合に年齢×性別で分析するなど
✔️ 定性データをいくつかのポイントにまとめて定量データに変換する
第2章 利益を出すために必要なことは?
■市場規模を算出する方法
✔️ 市場規模(円)=1個当たり平均販売金額(円/個)×販売個数(個)
■市場規模の算出のようにざっくりとした規模を知りたい場合は平均を使うと良い
■平均に関するよくある勘違い
✔️ 平均が常に真ん中にある
✔️ 平均の周りに最も多くのデータが存在する
■「中央値」を使用するメリット
✔️ データの中にある極端な値の影響を回避できる
✔️ 中央値の上と下で同数のデータが存在する
■中央値はポジションニングを知るヒントになる
■平均値と中央値を比べて、「外れ値」のフィルターにする
✔️ 両者に顕著な差があった場合、外れ値など極端な値が含まれている可能性がある
■市場規模を大づかみし、その市場がそもそもビジネスの対象として適切であるのか否かの初期判断を行なうことは、その後の詳細分析に入る大前提として、とても重要
■特定の都市が国全体の「平均」を引っ張ることもある
第3章 リスクをどう見積もるのか
■標準偏差を使用してばらつきを数値化する
■偏差の計算式
✔️ 偏差=各データ - 平均値
■分散の計算式
✔️ 分散=(偏差)2の合計 ÷ データの数
■標準偏差の計算式
✔️ 標準偏差=√分散
■データのばらつきが正規分布に近い場合、標準偏差は全データの約3分の2が収まっている範囲になる
■標準偏差によって平均には表れないデータのばらつきの大きさをラフに把握できる
✔️ 標準偏差から「特定の店の売上は平均額では大きな変化がないが販売が安定してきている」などが分かる
■標準偏差をExcelで求める方法
✔️ 「=STEDV(範囲)」と入力
■標準偏差をビジネスの現場で有効に活用する方法
✔️ 同じ前提で相対的に比較する
同じ規模のチェーン店舗間で日々の来客数や売上のバラつきを比べる
同じ営業担当者で月ごとの実績を調べる
✔️ 「平均からどれだけ離れているのか」でリスクの大きさを比較する(標準化係数)
前提が異なる2つのデータ間でも個々のデータがどのくらい平均から離れているのかを比較することでバラつきを分析可能
標準化係数=(データ - 平均) ÷ 標準偏差
■相対評価を行ってばらつきが大きい場合、リスクが大きいと考えられる
■標準偏差を使いバラつきによる影響を数値化することができる
✔️ 「販売価格のバラつきにより総売上額にどのくらいの差異が生まれるのか」などに使用できる
■ヒストグラムでバラつきを比較することで事業リスクを算出することができる
✔️ 利益が最大でどれぐらいマイナスになるかを試算する
■ヒストグラムを作る際は「見にくく(説明しにくく)ならないよう細か過ぎず、データが埋もれてしまわないよう粗過ぎず」という落とし所をうまく見つけることが重要
■「標準偏差」が仕事で活かされる場面
✔️ 平均に隠されたデータのバラつきをみたいとき
✔️ データの統一感、バラバラ感を知りたいとき
✔️ データの値がバラバラであることを数値で表現したいとき
第4章 何が成功要因なのか
■使うお金を効果との結びつき(相関)の強さがわかれば何にお金を使うべきかがはっきりする
■相関を考えるときには2つのデータの各要素が「対応している」ことが前提である
■相関の大きさは一方のデータがどの程度他方のデータの動きに連動しているか(つられて動くか)で決まる
■Excelで相関係数を求める方法
✔️ 「=CORREL(範囲,範囲)」をセルに入力
■相関の有無を判断する明確な基準はないが0.7を基準として考えれらることが多い
■何を施策の直接のアウトプットと見なすのかを考えるべき
✔️ 最終アウトプットに至るまでに、他の影響が混じったり、何ステップもの中間プロセスが入ると、その分相関にもノイズが増えることになる
■相関の強さをより精度高く算出するには、2つのデータの間に、より直接的な関係(関係が近く、他の影響が少ない)がある方が良い
■相関を扱うときの注意点
✔️ データの組み合わせが妥当か
例えば「効果が出るまでに時間がかかる施策の効果を相関で調べる場合、対象の時期をずらす必要がある」など
✔️ たまたまデータの傾向が似ていただけ
✔️ 付加価値がないデータの組み合わせ(身長と体重など)
✔️ 本当は、2種類のデータの間に直接の相関関係がないにもかかわらず、その他の要因が影響して、計算上相関があるように見える
✔️ 第三の要因を媒介した相関
✔️ 相関があるからといって因果関係があるとは限らない
✔️ 原因と結果を逆に捉えてしまうリスクがある
✔️ 原因を1つだと決めつけてしまうリスクがある
■因果関係の有無を確認する方法
✔️ 前後関係:時間的な前後関係が常に矛盾なく成り立っているか
✔️ 一般性:いくつかの異なる条件下で同様の結果が得られるか
✔️ しきい値:原因データがある一定の値(しきい値)を超えた場合にデータが反応するか
✔️ 常識:自身にバイアスが刷り込まれていることを前提に思い込みを排除する
■対象のデータ範囲によって得られる相関結果が大きく異なる
■相関分析でデータ範囲を扱うときの重要なポイント
✔️ 「データがあったからそのまま分析に使う」のではなく、目的に合った範囲のデータを使うこと
✔️ 相関係数の計算だけを鵜呑みにせず、散布図で視覚化することで、全体の様子を見ること
■外れ値によって相関係数にデータの特徴が反映されないことがある
■複数の要素が混ざったデータを一緒くたに分析すると、誤ったメッセージを受け取ってしまうリスクがある
■受け取ったのデータにはさらに分解できる要素があるのか否かを一度確認することを習慣付ける
■相関結果を他人にレビューしてもらうことも有効
第5章 目標達成に必要な予算はいくらか?
■単回帰分析を使って相関関係にある2つのデータの定量的な関係を導くことができる
■単回帰分析が実務でどのように役立つか
✔️ あと100万円売上を伸ばすために、広告宣伝には10万円つぎ込む必要がある
✔️ 今週末の日中の予報は15度だから、来場は500人くらいだろう
■単回帰分析は散布図からスタートする
■「外れ度合い」が最も小さい直線を選び、それを“最もよくデータの関係を表わした”直線とする
■算出された回帰式と各データの点との乖離を示すのが「R-2乗値」である
■回帰式を利用できるかどうかは「R-2乗値」の値0.5以上が目安
■単回帰分析の式
✔️ Y = aX + b
■傾きが大きいほど効率的である
■相関関係が微妙な物に関してはデータを分解することで顕著な相関関係が見えることがある
■組織計画やKPI決定ツールとして回帰分析を使用する
✔️ 人事の数と従業員数で回帰分析することで必要な人事の人員を推定する
✔️ 各部署のKPI決定に単回帰分析を使用する
①その部署が達成したいパフォーマンスを示す指標を挙げる
②会社や事業のパフォーマンスを示す指標を挙げる(売上、利益など)
③(1)の中から、(2)と相関の高いものを選択し、部署のKPIとする
④単回帰分析を用いて、達成したい会社・事業目標に対して、自部署で達成すべきKPIの目標値を算出する
⑤部署の活動内容が、そのKPIにつながっていることを、相関分析などによって定期的に確認する
■単回帰分析だけでは十分な分析ができない場合は重回帰分析も使用すると良い
第6章 効果的なデータの見せ方・伝え方
■「分析する」というタスクと、「結果を伝える」というタスクは全く別モノ
■「相手に何を知ってほしいのか」「自分は、この結果を元に相手にどうしてほしいのか」を明確にする必要がある
■分かりやすくメッセージを伝えるコツ
✔️ 分析したことを全て見せようと思わない
✔️ 分析結果を文章で言い換えてみる
✔️ 説得力を高めるために出典を明記する
✔️ データを数値だけでなくグラフなど視覚化する
✔️ 比較してメッセージを強調する
■最後にもう一度仮説に立ち返る
①仮説に基づいて必要なデータを準備
②分析手法を選んで、トライアンドエラーも含めて実行
③分析結果を解釈
④結論を的確に伝えるための表現方法を検討
大事なポイント
■以下の流れをこの本を見ながら進めていくこと
①仮説に基づいて必要なデータを準備
②分析手法を選んで、トライアンドエラーも含めて実行
③分析結果を解釈
④結論を的確に伝えるための表現方法を検討
さいごに
このnoteを読んで「「それ、根拠あるの?」と言わせないデータ・統計分析ができる本」を読んでみたいと思った方はぜひこちらから手にとって読んでみてください。
この記事が気に入ったらサポートをしてみませんか?