見出し画像

データ分析の手法12選 | データの種類や分析手順についても解説!

こんにちは。スキルアップAI編集部です。
データ分析は、近年のビジネスの場面において、ますます重要になってきています。その手法は無数にありますが、効果的に行うには、解決したい課題からデータ分析の目的を明確にし、適切な手法を選択することが重要です。

この記事では、代表的なデータ分析の手法に加え、その目的や重要性、具体的なデータの種類、実際の手順について解説しています。


そもそもデータ分析とは

データ分析は、データから事象を把握し、問題を解決するための手段のひとつです。近年DX(デジタルトランスフォーメーション)が注目される中、それを実現するための手段としてデータ分析の重要性が高まっています。

データ分析によって得られる知見は、ビジネスモデルの変革につなげることが可能です。

データ分析の目的

データ分析の目的は、分析結果をもとに行動を起こして問題を解決することです。そもそもデータ分析とは、データから事象を把握するための手段に過ぎません。そのため、データを分析すること自体は目的ではなく、あくまで問題を解決するために用いる手段のひとつとして捉えることが大切です。

また、データ分析が適する問題もあれば、そうではない問題も存在します。売上や離職率の改善のような、数値で表せる問題はデータ分析に向いている一方、チームの団結力の向上といった数値で表しにくい問題については、データ分析の対象としては適切ではありません。

データ分析の重要性

近年、データとデジタル技術を活用しない従来のビジネスから、それらを活用したビジネスへの急速なパラダイムシフトが起きています。データとデジタル技術を活用し、ビジネスモデルを変革することを「DX」といいますが、DXは競争上の優位性を確立するために不可欠なものになりつつあります。

そして、DXを実現するための重要な手段のひとつがデータ分析です。今後ビジネスパーソンとして活躍していくためには、データ分析は必須スキルといえるでしょう。

データの種類

データにはさまざまな種類・分け方が存在します。ここでは、以下の6つの観点からデータの種類を紹介します。

  • 質的変数/量的変数

  • 名義尺度/順序尺度

  • 間隔尺度/比例尺度

  • 離散変数/連続変数

  • 横断データ/時系列データ

  • 1次データ/2次データ

質的変数/量的変数

質的変数(質的データ)は、元々数値ではなく、種類を区別するためのデータで、名義尺度と順序尺度という分類があります。 これに対して量的変数(量的データ)は、直接数値として測定可能なデータで、間隔尺度と比例尺度という分類があります。

名義尺度/順序尺度

名義尺度は、性別、都道府県、天気などの種類を表し、順序という概念をもたないデータです。度数や最頻値を算出できる特徴があります。

順序尺度は、ランキング(金賞/銀賞/銅賞)やアンケートの回答(好き/どちらでもない/嫌い)のような種類を表し、順序にも意味があるデータです。度数や最頻値に加え、中央値や四分位数の算出が可能です。

間隔尺度/比例尺度

間隔尺度は、摂氏温度(℃)や西暦、偏差値のように、データ間の差に意味があるが、比に意味がないデータです。度数や最頻値、中央値や四分位数に加え、平均や標準偏差の算出が可能です。

比例尺度は、年齢や身長、体重、製品シェア、絶対温度(ケルビン)のように、0という値に絶対的な意味があり、データ間の差や比に意味があるデータです。これまで列挙した処理に加えて、変動係数や幾何平均の算出が可能です。

離散変数/連続変数

量的変数には尺度のほかに離散/連続という分類も存在します。離散変数は、植物の種子の数やサイコロの出目の値のような、取りうる値が「とびとび」な量的変数です。

一方で連続変数は、身長、体重、温度のような、取りうる値が「なめらか」な量的変数です。

横断データ/時系列データ

横断データは、「2021年における都道府県別の人口のデータ」のような、1つの観測対象につき1時点(ある年、ある期間)のみで集めたデータです。同一の時点における、複数の観測対象の間の分析が可能です。

時系列データは、「1980年から2021年までの東京都の人口の推移のデータ」のような、1つの観測対象の時間の流れにともなう推移を示すデータです。1つの観測対象の時間変化の分析が可能です。

1次データ/2次データ

データは「自分達で収集したデータ(=1次データ)」と「公開/販売されたデータ(=2次データ)」に分類することができます。 1次データは、アンケート調査やインタビュー、実験や観察などを通して自分達で収集したデータのことです。 2次データは、Webサイトやe-Stat(政府統計情報)など、誰かが公開・販売しているデータです。

データ分析の手法12選

ここでは、データ分析の主な手法を12選紹介します。

多変量データ分析

多変量データ分析は、以下のような、2変数以上のデータに対する分析です。

  • アンケートデータ

  • 5教科試験の点数

  • 従業員の健康診断結果

代表的な分析方法として、以下のようなものがあります。

  • 相関分析

  • 主成分分析

  • 因子分析

  • 回帰分析

1つずつ紹介していきます。

相関分析

相関分析は、2つの量的変数間の相関係数を利用した分析手法です。相関係数は、-1から1までの範囲を取り、1に近づくほど強い正の相関、-1に近づくほど強い負の相関を示す指標です。相関係数の絶対値が0.8以上であれば強い相関があると考えてよいとされています。

注意点としては、相関係数は外れ値に引っ張られやすいことや、相関関係は因果関係(原因と結果の関係)を意味しないことなどがあります。

主成分分析

主成分分析は、データが大きく散らばっている方向を見つける分析手法です。見つかった方向は、互いに異なる情報をもっています。散らばりが最大の方向を第一主成分と呼び、そこから大きい順に第二、第三主成分…と呼びます。2次元データであれば 2つの方向が見つかります。

因子分析

因子分析は、複数の観測変数(データ)に共通して影響を及ぼす要因(共通因子)を抽出する分析手法です。因子分析は下記のようにイメージができます。

  • 観測変数
    国語、算数、理科、社会、英語の試験の点数

  • 共通して影響を及ぼす要因として考えられるものの例
    言語能力 → 国語、英語
    暗記能力 → 社会、理科
    計算能力 → 算数、理科

共通因子は、因子分析適用後、分析者が主観を交えて解釈します。一方独自因子は、共通因子だけでは表現できない、個々の観測変数がもつ情報です。

図:因子分析が仮定する変数の関係性

回帰分析

回帰分析は、ある変数を異なる変数の関数として表現する分析手法です。表現したい変数は目的変数と呼ばれ、目的変数を表現するために使う変数は説明変数と呼ばれます。また、説明変数が1つのものは単回帰分析、複数のものは重回帰分析と呼ばれます。

利用用途としては、目的変数への影響度が大きい説明変数を発見する要因分析や、未知のデータに対する予測などが挙げられます。

時系列データ分析

時系列データは、1つの観測対象の時間の流れにともなう推移を示すデータです。時系列データ分析の応用例としては、株価予測や気温予測が挙げられます。時系列データに含まれる要素としては、以下の3つがあります。

  • 周期性(一定の時間間隔でデータの変化が繰り返されること)

  • トレンド(時系列データの長期的変動のこと)

  • ノイズ(信号の乱れによる余分なデータのこと)

時系列分析については、以下の記事で詳しく紹介していますのでぜひご覧ください。

自己回帰モデル(ARモデル)

自己回帰モデルは、時系列データの変化に数式を当てはめる手段の一つで、AR(Auto Regression)モデルとも呼ばれます。ある時刻における目的変数の値を、過去のある時刻の目的変数の値を用いて表現するモデルです。

フーリエ変換

フーリエ変換は、時系列データに対して、どの周波数成分がどの程度含まれているかを知る手法です。信号はさまざまな周波数成分の組み合わせでできており、フーリエ変換は、時系列データを分解して、時間 t の関数 f (t) を、周波数 ω の関数 f (ω) に変換することができます。

顧客分析

顧客分析の手法には、以下のような手法が存在します。

  • セグメンテーション

  • クラスター分析

  • デシル分析

  • RFM分析

これらは、顧客を分析、分類することで、優良顧客を見つけ出すことを目的としています。

セグメンテーション

セグメンテーションは、何らかの基準に従い、同様の顧客の属性や行動特性をもつ複数のグループを作ることです。セグメンテーションの基準としては、地理的基準、人口統計学的基準、行動基準、心理的基準などが挙げられます。

セグメンテーションの目的は、企業のビジネス活動にとって価値のある顧客グループを発見することです。

  • 優良顧客と思われるグループ

  • アップセル(顧客単価の向上)を見込める顧客グループ

  • クロスセル(同時に別の商品も購入すること)が見込める顧客グループ

クラスター分析

クラスター分析は、データの集合を部分集合(クラスター)に分割することです。このクラスターが顧客グループ(セグメント)となります。

クラスター分析の種類としては、階層型クラスタリングと非階層型クラスタリングがあります。 階層型クラスタリングは、距離が近いデータを集めていき、クラスターの中身を確認することで、価値ある情報が見出せるクラスター数を手動で発見する手法です。 一方で非階層型クラスタリングは、事前にクラスターの数kを決定した上で、各データについて最近傍のクラスター中心点を探し、そのクラスターに所属させる手法です。代表的な手法としてk-means法があります。

デシル分析

デシル分析は、主に優良顧客の発見のために活用されます。デシルはラテン語で「10等分」を意味する言葉です。購買金額の顧客ランキングを作成し、金額の高い順に顧客を10等分した上で、それぞれの顧客群の購買情報を分析します。

RFM分析

RFM分析は、Recency、Frequency、Monetaryの3つの指標を利用して、顧客のロイヤルティ(優良顧客度合い)を評価する分析です。

  • Recency:基準日から計算した最新の購入日までの日数、小さいほどロイヤルティが高い

  • Frequency:基準日から計算した累積購買回数、大きいほどロイヤルティが高い

  • Monetary:基準日から計算した累積購買金額、大きいほどロイヤルティが高い

商品分析

商品分析の方法の例としては、以下のような手法が存在します。

  • ABC分析

  • 相関ルール分析

ABC分析

ABC分析は、パレートの法則(売上の8割は全体の2割の商品で生み出しているという80 : 20の法則)にもとづいた商品分析のフレームワークです。

売上やコスト、在庫数などの商品に関する指標の中から重視する指標を決め、その指標の累積構成比の多い順に、商品をA/B/Cの3グループに分類します。A/B/Cの区切りに定まった決め方はなく、分析者が指標の値を見て決定します。

パレート図:果物の売り上げとその累積率を同時に表した図

相関ルール分析

相関ルール分析は、同時に購買されやすい商品の組み合わせを発見する手法で、商品間の関連性に対する分析の一つです。

特に、ID付きPOSデータの普及により、「いつ」「誰が」「何の商品」を「何個」購入したかという情報が容易に保持できるようになったことで、同時に購買されやすい商品について分析可能になりました。

相関ルール分析においては、「商品Aを購買する人は商品Bを購買しやすい」という関係を求めることを目指しますが、その関係を評価する際に利用する重要な指標として、以下のようなものが挙げられます。

  • confidence(信頼度)

  • support(支持度)

  • lift(リフト値)

データ分析の手順・やり方

データ分析を用いてビジネス課題を解決する一連の流れについて説明します。データ分析プロジェクトは、以下6つのステップを踏むことが一般的です。

  1. 問題定義をする

  2. 課題定義をする

  3. 仮説を立て真因を探る

  4. 施策を検討する

  5. 施策を実行する

  6. 振り返りをする

また、いずれのステップにおいても、Excelなどを用いた集計や可視化を行うことが重要です。

1.問題定義をする 

ビジネスにおける問題は、「改善したい事象」そのものであり、目指す理想と現実のギャップ(差)が問題を発生させます。そこで、集計や可視化を通して、過去・他者・未来(目標)との差を確認することで、問題を認識し、定義することができます。

比較の例としては、以下のように定義ができます。

  • 過去との比較の例:前年度の売上実績と比較

  • 他者との比較の例:競合他社の同月売上と比較

  • 未来(目標)との比較の例:社内で掲げていた目標値と比較

2.課題定義をする

ビジネスにおける課題は、「問題を引き起こしている事象」のことです。1つの問題に対して、複数の課題が存在するため、改善時のビジネスインパクトの大きさを鑑みて、改善に取り組む課題を決定します。

また、各課題において、ビジネスインパクトの大きさを見積もるために集計や可視化を実施します。加えて、問題定義と同様に、課題に対応した指標ごとに過去・他者・未来のいずれかと比較することも必要です。

原因や解決策を導くためには、ロジックツリーを用いることがおすすめです。構成要素をMECE(モレなく、ダブりなく)に書き出すことが重要です。

3.仮説を立て真因を探る

ビジネスにおける真因とは、「課題が発生した背景や原因」のことです。発生原因の仮説を立て、ドメイン知識(現場知識)をもつ人へのヒアリングやアンケートを通じて情報収集を行い、仮説の検証を繰り返します。

仮説立案のための現状把握や検証のために、集計や可視化を実施します。真因仮説のポイントとしては、変化の影響要因を市場・競合・自社の3つの視点で考えることです。また、真因を考える際は、「なぜ?」を複数回繰り返すことも重要なポイントの一つです。

4.施策を検討する

真因仮説を立てた後は、真因を解決するための施策を考えます。実行可能な施策は複数存在しますが、「インパクト」「コスト」「工数」「不確実性」の4つを総合的に評価して、優先度を決定します

「インパクト」は施策実施時の効果の大きさ、「コスト」は施策実施に必要な直接的な費用、「工数」は施策実施に必要な人数と時間、「不確実性」はコントロールできない外部要因による影響を指し、これらを考慮して施策を検討します。

5.施策を実行する

施策を検討した後は、立てた施策を実行します。実行する前に、施策の効果を測定する方法や、施策実行後のネクストアクションを決めておくことが重要です。

効果測定のポイントは、何を確認するために、何のデータから、何の指標を見るのかを決めておくことです。また、ネクストアクション設定のポイントは、指標がどの程度の値であったら、何をするのかを決めておくことです。

6.振り返りをする

施策実行後、得られた効果の大きさを確認し、施策の成功/失敗を判断します。注意点として、測定指標の変化量は、本当に意味がある違いなのかどうかを精査する必要があります。t検定やカイ二乗検定などを用いて、たまたま生じた差ではない(=施策の実施によって生じた差である)ことを確認しましょう。

また、成功/失敗だけの判断に留まらず、プロジェクトの各ステップに渡ってその要因を洗い出し、知見を明文化することも重要です。失敗の原因が分かれば、同じミスを避けることができ、成功の要因が分かれば、ほかのプロジェクトでも成功率を高めることができます。

データ分析について学ぶならスキルアップAIがおすすめ

この記事では、代表的なデータ分析の手法に加えて、その目的や重要性、具体的なデータの種類や、実際の手順について解説しました。ビジネスの課題に応じて、最適なデータ分析の手法を選びましょう。

スキルアップAIでは、「Pythonデータ分析手法講座」を開講中です。本講座はさまざまなデータに対する代表的な分析手法を学び、「データや分析の目的に応じて、適切な分析手法を選択できるようになること」を目標としています。実務の場面で頻繁に利用されるデータ分析手法の内容や、Pythonを用いた各種分析手法の実装方法が理解できるようになります。

また、このほかにも、スキルアップAIでは、データ分析スキルを獲得するためのさまざまな講座が用意されています。興味のある方はぜひデータ分析について学べる講座一覧ページをチェックしてみてください。

☆☆☆
スキルアップAIのメールマガジンでは会社のお知らせや講座に関するお得な情報を配信しています。配信を希望される方はこちら

また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
Xはこちら
Facebookはこちら
LinkedInはこちら
スキルアップAI公式YouTube AIビジネスチャンネルはこちら

この記事が気に入ったらサポートをしてみませんか?