【学びメモ#2】データ分析の基本まとめ
こんにちは、おのし(@ssshinichi)です。
「今後学びを発信していく!」と声高に豪語したものの、気づけば前回noteを書いてから1年が経ってしまいましたw
全く発信できていませんでしたが、地味に読書と学びは続けておりまして、今回久しぶりに更新しようと思い立ちました。
というのも、最近分析の業務に携わることが多く、また人から本を貸してもらったり、メンバーにちょっとした勉強会を開いたりなど、データ分析について触れる機会が多くなってきたのですよね。
「せっかくこんなに学んでるのだから、知識が風化したらもったいない、自身の定着のために何かに残さねば!!」なんて焦燥感もあり、久しぶりに筆をとってみた次第です。
まとめていたら色々と詰め込んでしまい、結果かなり長くなってしまったのですが、、もしよろしければご参考いただければと思います。
※あくまで自分が学び取った内容を記載しておりますので、説明に不備があった場合はご容赦ください。
データ分析の学習ソースについて
ここ最近自分が学んでいるデータ分析の学習ソースには書籍とオンライン講座の2種類があります。
まず書籍についてはこちらの2冊です。
「はじめての統計学」は1994年初版のいわゆる古典書です。「統計を一生もののスキルにしたかったら、この本おすすめだよ!」という友人のキラーワードにやられて選んだ1冊です。
ピープルアナリティクスの教科書は今の上長に薦めてもらった本で、初版は2020年と割と新しいです。他社人事部門のデータ活用事例も載っていて、こちらも面白かったですね。
そしてオンライン講座のほうですが、これはgaccoというサービスを利用しました。
このサービスは株式会社ドコモgaccoが運営していて、自分も知らなかったのですが、大学や企業負担で講座が提供されているのでまさかの無料です。
今回は総務省が作成した「データサイエンス入門」のオンライン講義を視聴し、一流講師が基本のキから説明してくれており、大変ためになりましたよ。(これが無料ってすごい時代ですわ…)
データ分析の他にも様々な講座があるので気になる方はチェックしてみてください。各講座試聴期限があるのでその点はご注意を。
分析では「目的の設定」が超大切
というわけで、さっそく学んだ内容について振り返りたいと思います。
分析手法の話をする前に、まずは分析をする上での前段階についてお伝えしてまいります。
分析というと、とにもかくにもデータをいじりたい欲が出てきてしまうのですが、実は分析ではその前段階が非常に重要です。
前段階というのは、「何のために分析をするのか」という目的を明確にすることです。
少しイメージして欲しいのですが、もし上司からの依頼で「上半期の売上状況を分析して欲しい」なんてオーダーが下りてきたとします。そのとき、どんな分析を行うでしょうか。
まずは売上データを並べ、加工して、過去と比較したグラフを作るでしょうか。
商品ごとに比較するでしょうか。
はたまた競合とのシェアを調べてまとめるでしょうか。
それともこれら全てを行うでしょうか。
…なんだかまとまりがなくなりますよね。
それもそのはずで、そもそもの目的が明確でないと、何をどう分析すれば良いのかが定まらないのです。
今回の例において、例えば背景に「売上は伸びているが、過去と比べると苦戦を強いられている雰囲気があるので原因を調べたい」といった要望があるとします。
その要望がわかっていれば、分析の目的を要因特定に絞ることができ、要因分析を進めることができますよね。
分析の目的が定まっていない、言うなれば「なんとなく分析」は、実は自分も何度も経験しています。
目的の設定が先決なのはあらゆる仕事に共通することですが、目的志向は例にもれず分析にも当てはまるということですね。
分析の5つの心得
分析においても目的設定が大事とわかったところで、続いては分析の基本的な心得についてまとめてまいります。
経験上、データ分析を我流で行っている人は案外多いと感じているのですが(過去の自分も含め)、分析にも基本的な考え方、押さえておくべき心得が存在します。
我流な分析をすべて否定するわけでは決してないものの、少なくとも自分の場合は「この分析がはたして最適なのだろうか?もっと良い分析の仕方があるのではないか?」と、自分の分析にイマイチ自信が持てなかったのですよね。
また、見慣れない分析を行ったせいで、自分の説明がパッと理解してもらえなかった、なんて場面も多くあった気がします。
そういったことを避けるためにも、まずは基本を学んで実践したほうが本質に近づきやすく、相手も理解しやすいと思います。
というわけで、ここでは5つの心得を紹介します。
心得①:分析の基本は「分けて、比べる」こと
分析という言葉を辞書で調べると「複雑な事柄を一つ一つの要素や成分に分け、その構成などを明らかにすること」と出てきます。
その言葉の通り、分析というのは事象やデータを細かく分けていって観察することに他なりません。
そしてただなんとなく観察するだけでは、何が良くて何が悪いかわかりませんので、細かく分けたものを比較してその事象を紐解いていくことになります。
このように分析の基本は「分けて、比べる」です。
分析には色々な手法がありますが、全てはこの「分けて、比べる」を行っているわけです。こう捉えると、なんだかシンプルになりますよね。
心得②:分け方は目的に応じて考える
では「分けて、比べる」というのは、具体的にどうすればいいのでしょうか。
まず「分ける」という部分ですが、原則として目的に適した分け方を考えるのがベストです。
例えば「最近全社的に新人を多く採用しているが、各部署の生産性への影響はどうか」といった場合を考えてみます。
「部署ごと」という分け方で生産性を見るだけでは、仮に想定より下がっていたとしても、それが新人の影響なのか、既存社員の悪化の影響なのかがわかりません。
新人採用の影響を知りたいわけなので、この場合は「部署ごと」に加え「社員ごと」という分け方もあったほうが、より知りたいことに近づけます。
このように目的に応じて分け方を考えることが、スムーズな分析と考察に繋がってきます。
また、目的を押さえていたとしても、なんとなくで分けようとすると良い切り口が浮かびづらいので、切り方のパターンや切り口のフレームワークを溜めておく&知っておくのも便利です。
例えば、私は採用人事をしているので、採用状況の課題を見つけるときには採用ファネルを下記の軸ごとに見ています。
これらの軸は採用状況を把握するのによく使うため、自然と自分の中でのフレームワークになりました。また「こういうときはこの切り口だ」というパターンもいくつか学ぶこともできたように思います。
このように、よく使いそうな軸(〇〇別、といった切り口)はまとめておくと便利です。
そして経験ベースだけでなく、既に世にあるフレームワークを知っておくのも有効なので、使えそうなフレームワークはメモしておくのもおすすめです。
※ちなみに問題解決系のフレームワークは過去のnoteに少しだけ載せているのでよろしければご参考ください。
心得③:比べるときは「Apple to Apple」と「時系列」
次に「比べる」についてですが、そのコツとしては「Apple to Appleで比較せよ」という言葉が参考になります。
Apple to Appleは直訳すると「リンゴとリンゴ」という意味ですが、そこから転じて「同一条件で比較しているか?」という意味で使われます。
つまり分析においてはApple to Appleのように同一条件で比較せよというわけです。
例えば「商品Aの販売はうまくいってるか?」と聞かれたとき、単純に売上額を商品別に横並びにしても、もともと売上規模や価格が大きい商品が優勢に決まっていますから、正しい比較とは言えません。
そのため目標への進捗率で比較したり、ビジネスフェーズの同じ商品だけで比較したりして、条件を合わせる必要があるわけですね。
どこに問題があるのかは同条件での比較によって明らかになりますから、Apple to Appleでの比較は分析の際に必ず覚えておきたいポイントです。
そしてもう一つのコツは、時系列で比較するということです。
横並びでの比較に加えて、「昨年と比べてどうか?」「過去3年間との比較はどうか?」といった時系列での比較をすることで、トレンドや傾向について気づきが得られやすくなります。
時系列比較は様々なシーンで使われているので、馴染みがある分イメージがしやすいかと思います。
心得④:分けたもの同士を組み合わせてみる
ここまでで既にお気づきかもしれませんが、分けたものをさらに組み合わせると分析の精度が増します。
先ほどの例を用いると、商品別の進捗率(Apple to Appleでの横の比較)を月ごとに時系列で並べてみる、といった具合です。
すると、例えば現時点では商品Aのほうが商品Bよりも進捗率が高くても、数ヶ月前から商品Bの追い上げがすごく「このペースならこの先商品Aよりも早く目標に達しそうだ」なんてことがわかるかもしれません。
横の比較同士を組み合わせるのもすごく有用で、「商品別×コンバージョン率」「商品別×エリア別」「部署別×勤続年数」など、組み合わせることで分析の幅が無限に広がります。
1つの軸で示唆が得られないときは、他のデータと組み合わせて見てみる、という点を覚えておくと良いかと思います。
心得⑤:分析は複雑にせず、1つずつシンプルに行う
これまで見てきた通り、分析の幅というのは無限に広げることが可能なので、分析に凝り出すとどんどん掘り進めることができてしまいます。
しかし凝りすぎてかえって非効率な分析になることもあるため注意が必要です。原則として分析は最初から複雑に行おうとせず、1つずつシンプルに行うのが得策となります。
例えば、売上減少の要因分析をしようとした際、分析前から既に3つの仮説が出てきているとしましょう。
もしもこれらが同時に起こっていそうな場合、全て分析して一気にレポートするよりも、1つ1つ分析して都度レポートしたほうが一般的には良いです。
なぜなら、1つの事象を明らかにすることができれば、2つ目以降の分析前提が変わったり、不要になることなどもあり得るからです。
ここでは上記の「今年は中途入社者や異動者が多く教育中の人がいるのでそれが苦戦の原因では」という仮説から分析を開始したとします。
その結果、教育中の社員の生産性が想定よりも悪く、それが売上減少の主な原因であると判明するかもしれません。
すると、会社としてはこの段階で十分で「他の分析よりも打ち手に時間を割いて欲しい」と言われる可能性もあります。
また仮に分析を続けるせよ、主要原因は既に分かっているので、他の分析は簡易的なもので済ませられる場合もあり得ます。
このように、原因が複数考えられるような分析をする際は、一気にやろうとせず、1つずつシンプルに行うことが重要です。
余談ですが、オッカムの剃刀という、「説明や分析の際は多くの仮定を置くべきではない」という格言があるのですが、自分は分析するとき、よくこの言葉を思い出すようにしています。
分析の種類
既にお腹いっぱいなくらい書き込んでしまいましたが…、ここからやっと具体的な分析手法の話に入っていきます。
分析手法といってもそれらは多岐に渡るため、ここでは基本的な分析手法のみまとめたいと思います。
主観ですが、ここに書いた基本手法だけでもビジネス上の分析であれば問題なく行えると感じています。
①単年集計比較
まずは単年集計比較です。これはとある事象を年内で集計して横並びに比較するやり方で、最もシンプルなものですね。Apple to Appleの例で挙げたような商品別の比較、プロセス別の比較を単年で行うイメージです。
「この商品の売れ行きはどうなのだろう」「この部署の状況はどうなんだ」といった、全体や他と比較して、特定のサンプル、もしくは特定の層の状態を把握したいときに用います。
②経年比較
次に経年比較です。「年初からの推移」「3年前からの推移」など、時系列で変化を捉えるための比較です。営業資料などで折れ線グラフを使って表されることが多いため、馴染みがある比較ではないでしょうか。
「去年はどうだったの?」「過去3年分の傾向が知りたい」なんて声はよくあると思うので、そういったときに用いるものとなります。
③ベンチマーク比較
ベンチマーク比較は、目標値や全体平均値、もしくは競合先の数値など「特定の基準に対してどうなっているか?」をチェックする方法です。
といったように、マーケティングなどではよくベンチマーク分析、ベンチマーク調査といった取り組みがされていますね。
マーケティングに限らず、業界水準や他社状況を参考に「これくらいには達して欲しい」といった基準を設け、それと比較して数字をウォッチ・改善していく取り組みは、社内の人事指標や採用指標においても有効かと思います。
④要因分析
要因分析はその名の通り、とある事象の発生要因を探る分析となりますが、これは仕事上かなり使用頻度が高いと思います。
要因分析では、事象を紐解いて分解し、ボトルネックを探っていきます。色々な軸で切って病変(要因)を見つけ出すのに似ていることから、よく医者の診断に例えられたりもします。
やり方については、
(1)データ分析から要因の仮説を立てる(定量→定性)
(2)定性的に立てた仮説をデータ分析によって検証する(定性→定量)
という2つのアプローチがあります。
(1)は、まずデータをいくつかの軸で切ってみて、問題と思われる箇所があればさらに切り、データ上に違和感がないかを探すことで要因を特定していきます。
要因と思われるものが発見できたら、そのデータの裏で何が起きているのかを定性的に調査する、といった流れです。
(2)は、まずは考えの整理や議論、ヒアリングなどから「これが要因なのではないか?」というものを絞り込み、その仮説が本当かどうかをデータで見て明らかにしていく流れとなります。
⑤相関分析
相関分析は2つのデータの関係性の強さを知りたいときに用いる分析です。
2つのデータ群に関数を使用して相関係数を算出し(ExcelのCORREL関数を使うと秒で出せます)、その値から関係性の強さを明らかにします。
相関係数は1~-1の間の数値で求められ、0より大きい場合は正の相関があり、0より小さい場合は負の相関があることを示します。
正の相関の場合は、一方の値が大きくなればもう片方も大きくなり、逆に負の相関の場合は一方の値が大きくなるともう片方は小さくなっていきます。
例えば「顧客訪問数と受注率には関係があるのではないか?」なんて仮説があるとき、この相関分析を行なって関係性を明らかにする、なんて使い方が挙げられます。
このように2軸のデータがすぐに計算できるためとても使い勝手が良い分析なのですが、この相関分析というのは取り扱いが結構難しいと言われます。
というのも、分析の結果、相関関係があったとしてもそこに因果関係があるとは限らないからです。
例えば、血圧と年収には正の相関関係があると言う事実をご存知でしょうか。
正の相関があるということは「高血圧であるほど高年収である」ことになりますが、だからといって血圧を上げれば年収が上がるはずはないと、直感的にわかるかと思います。
実はこの相関関係の裏には年齢という隠れた変数があります。一般的に年齢が高いほど高血圧の人が多く、また年齢が高いほど年収が高い傾向にありますよね。
つまり血圧と年収という2つの変数に因果関係はなく、どちらも年齢という変数に因果関係があったわけです。
こういった見せかけの相関は疑似相関といって、他にも「警察官数と検挙件数」「アイスクリームの販売量と熱中症件数」など、様々な例がありますので、興味があればぜひ調べてみてください。
さて、この相関についてはかなり奥深いのでここでは全て語ることはできないのですが、実務で使う際の注意点としては、
という2つは心がけるべきと思います。
⑥予測分析
最後に予測分析についてです。
この予測分析についても様々な方法があるのですが、ざっくりの説明としては、過去や現在(あるいは過去から現在)までのデータを元にそれを数式としてモデル化し、将来起きそうな状況を予測する方法です。
代表的な分析方法に回帰分析という方法があります。
回帰分析を使えば、例えばとある駅に新店舗を出そうとする際などに、過去の出店データを元にして「その駅に出店した場合にどれくらいの売上げが見込めるのか?」といった予測を具体的に行うことができます。(回帰分析もExcelで実行できます。Excelは今でも超便利です)
また、事象や状況を何らかのロジックで数式化できれば、回帰分析を行わなくても、将来を大まかに予測することが可能です。
簡単な例となりますが、売上を「市場規模×自社シェア」という式に落とし込み、来年〜数年先の予想数値を当てはめ、売上の予測を立てるといった感じです。(売上はこれ以外にも色々と分解できるのでよければ試しにやってみると面白いです)
そして予測する際は1パターンだけでなく、既定路線パターン、楽観パターン、悲観パターンなど、幅を持たせてシミュレーションしておくことが肝要です。
それぞれの予測において「こうなったらどうするか」といった対策を立てておくことが重要であり、対策検討こそが予測分析を行うメリットになるからです。
まとめ
というわけで、つらつらと分析の基本について記載してまいりましたが、ここまでお読みいただきありがとうございました。もっとコンパクトにまとめる予定だったのですが、書き始めると筆が進んでしまうものですね。。
ただ毎回思うのですが、こうして文章で学びをまとめると自分自身も振り返りができますし、「これってどういうことなんだっけ?」と学び直しもできたので、そういう意味でも書き残せてよかったなと感じます。
今回の内容以外にも、分析やその可視化で使うグラフの種類や統計手法も学んでいる最中なので、また思い立ったタイミングでまとめたいと思います。
それでは、今回もありがとうございました。少しでも参考にしていただけましたら嬉しい限りです。
この記事が気に入ったらサポートをしてみませんか?