見出し画像

ビジネスで活かす、重回帰分析 〜数字で語れる人材になる〜


ビジネスの中で「来月の売り上げはいくらになりそうか?」「売り上げに貢献する要素は何か?」といった問いを投げかけられたら、あなたはどうしますか?
ここで活用できるのが、「重回帰分析」という回帰分析の手法の1つです。

これを活用すると、

"予測分析をする"
例. 店舗を構える際、おおよその年間売上を予測する

"要因分析をする"
例. 店舗の年間売上に大きく影響する要因を知る

などを数値の根拠とともに説明することが可能になります。

ビジネスでは、主観だけでなく数値を根拠に自分の考えを主張することで説得力のある話ができますので、ぜひご参考にしていただければと思います。


1. 重回帰分析の概要

1-1. 回帰分析とは?

重回帰分析を理解するためには、最初に「回帰分析」について理解する必要があります。

回帰分析:複数データの関連性を明らかにする統計手法の1つ

ある成果の値変動に別の要素がどのくらい影響を与えているのかを分析することができます。

また、「成果」や「要素」を統計的な専門用語として「成果」→「目的変数」
「要素」→「説明変数」などと呼びます。

回帰分析では、説明変数が目的変数に与える影響の程度を数値化し、それらの関係を直線などの式で表します。

具体例として、「ラーメンチェーン店にて新店舗を出す際の年間の売上に関する分析」を例にして説明します。下表のようにラーメンチェーン10店舗それぞれのメニュー数と年間の売上のデータがあるとします。

今回は年間の売上高を目的変数、メニュー数を説明変数として回帰分析をすると、2つの関係を最適に捉える下記の式が導かれます。

回帰分析の結果として得られる式を「回帰式」と呼び、回帰分析は式の係数と切片の値を推定して目的変数と説明変数の関係を表します。この例の回帰式からは、メニュー数が1つ増えると年間の売上を2万円減少させるということが読み取れます。

1-2. 単回帰分析と重回帰分析の違い

回帰分析ではよく単回帰分析と重回帰分析というものがありますが、その違いは分析に用いる要素の数です。

単回帰分析:1つの説明変数が目的変数に与える影響度合いを分析する手法

先ほどのラーメン屋の年間売上に関する分析は、単回帰分析にあたります。

重回帰分析:2つ以上の説明変数が目的変数に与える影響度合いを分析する手法

統計学における「重」という言葉には「複数の」という意味があります。

1-3. 重回帰分析の使用例

重回帰分析のイメージを掴みやすくするために、同じくラーメン店の例で詳しく見てみましょう。下表のように、「メニュー数」「最寄駅からの徒歩時間」「ご飯お代わり無料の有無」「年間の売上(万円)」のデータが存在するとします。

「年間の売上(万円)」を目的変数、その他の3つを説明変数として重回帰分析をすると、4つの関係性を捉える下記の式が導かれます。

上記の式の結果から、次のようなことが読み取れます。
・メニュー数が1つ増えると年間の売上が235万円増加する
・最寄駅からの徒歩時間が1分増えると年間の売上が417万円増加する
・ご飯おかわりのサービスが有あると、ない場合に比べ年間の売上が121050万円増加する
※今回のデータは架空のものになるので、分析の正確性に欠ける場合があります(上記の結果でいうと、「最寄駅からの徒歩時間」が増えるほど、「年間の売上」が高くなるという結果は感覚的におかしい)。分析結果を鵜呑みにせず、結果の解釈を深掘りする姿勢も大切です。

このように、重回帰分析によって「複数の説明変数が目的変数にどの程度影響を与えているのか」や「目的変数に影響を与える説明変数から、目的変数の値を大まかに予測する」といったことが可能になります。

2. 重回帰分析ハンズオン

ここからは、Excelを使用して重回帰分析の流れを実践していこうと思います。今回は、下記の架空のデータを用いて「塾の生徒の成績の要因・予測分析」を実施していこうと思います。

2-1. データから目的変数とそれに関連しそうな説明変数を決定する

下記の架空のデータから「目的変数=要因・予測分析を行いたいもの」と「説明変数=目的変数に影響が大きいと思われるもの」を決定します。

今回のお題は「塾の生徒の成績の要因・予測分析」なので、目的変数は「塾テスト偏差値」となります。次に説明変数ですが、選ぶ基準としては「生徒との成績に影響が大きいと思われるもの」になりますので、今回は「個別面談回数」「保護者電話回数」「前回の塾テスト偏差値」「平均自習室利用時間/日」「課題提出率」とします。
※ビジネスの中で説明変数を選ぶ際は、変数の目的変数への相関をみたり、説明変数を1つずつ分析に入れたり取り除いたりしながら最適な回帰式を模索する(ステップワイズ法)などを行い、厳選な選定を行います。

2-2. Excelの「分析ツール」機能で重回帰分析を選択する

Excelで重回帰分析などの統計的な分析を行うには、"分析ツール"という機能を使えるようにする必要があります。下図のように、Excelの「データ」に「データ分析」という項目があれば、分析ツールが使用できる状態です。

※分析ツールが未導入の方は、導入した後以降の手順に進んでください。

2-3. 分析データを用意する

分析するデータを用意します。2-1で選択した目的変数と説明変数を抽出し、下図のように並べます。

2-4. 分析ツールで回帰分析を設定する

下図のように、「データ」→「データ分析」→「回帰分析」→「OK」と選択します。

次に、表示されるダイアログで以下の設定を行います。
・入力Y範囲:分析対象の目的変数の範囲を指定する
・入力X範囲:説明変数の範囲を指定する
・ラベル:上で指定した範囲にデータ名を含めた場合はチェックを入れる
・出力オプション:分析結果の出力先をお好みで設定する
ダイアログの「OK」をクリックすると、結果が出力されます。

出力

2-5. 分析結果を解釈する

下図のような出力結果を得ることができました。さまざまな項目がありますが、重回帰分析では一般的に①〜④の項目から回帰式の評価を行います。

①推定された回帰式の精度をみる
回帰式の精度を示す指標→補正R2(決定係数と呼ばれるものです)
結果の補正R2を確認すると、0.42であることがわかります。これは推定された回帰式が「塾テスト偏差値」の約42%を説明できていることを表しています。

重相関R:的変数の実際の値と、回帰式から得られる予測値の間の相関係数。

重決定R2:説明変数が目的変数をどれくらい説明しているかを示すもので、決定係数ともいう。重相関Rの2乗値である。

補正R2:決定係数は説明変数の数が増えるほど大きくなってしまうため、説明変数の数を考慮した決定係数のこと。一般的に、0.5を超えると当てはまりが良いとされる。

②推定された回帰式が統計的に意味があるのかをみる
回帰式の有意性(回帰式が意味のあるものか、みたいなもの)みるために有意Fを確認すると、0.068であることがわかります。一般的な水準の0.05未満という条件は満たせていないため、推定された回帰式が有用なものとは言えません。

有意:確率的に偶然とは考えにくく、意味があると考えられること

※ここでの有意Fという数値は「この回帰式が意味のないものである」といく確率がどの程度かを示しています。この確率が設定した水準(有意水準)より小さければ、「この回帰式が意味のないものである」可能性は低いため、「この回帰式は意味のあるものである」とみなすことができると解釈されます。詳しくは統計的検定と呼ばれるものになるので、ここでは割愛させていただきます。

③推定された係数が統計的に意味があるのかをみる
係数の有意性をみるためにP-値を確認すると、有意水準5%で有意な要因はありませんでした。このことは今回の分析において5つの説明変数は「塾テスト偏差値」を変化させる要因とはいえなかったことを示します。

④各説明変数の影響度をみる
最後に、推定係数が有意だった説明変数の影響度をみるため、t値を確認します(今回は推定係数が有意である要因がないため、見方のみ説明します)。推定係数が有意だったt値が、「2」以上なら、その項目(説明変数)は、「統計学的に、モデルに組み込むのは良い」または、「統計学的に支持される」ことを意味しています。逆に、t値が「1」未満なら、「統計学的に、支持できない」ことになります。

2-6. 結果のまとめ

架空のデータを用いて「塾の生徒の成績の要因・予測分析」をExcelを使用して実施してきました。2-5「分析結果を解釈する」から推定された回帰式が統計的に意味がないものであるため、今回の分析は有用なものではないという結果になりました。
その際は、
・サンプル数の吟味
・説明変数の吟味
・データの正確性/形式を確かめる
などを確かめてみましょう。
※重回帰分析の注意点は3章に記載しているので、参考にしてください。

また、もし分析がうまくいった場合(推定された回帰式が統計的に意味があると判断された場合)は、分析結果を解釈するだけでなく、具体的な施策に落とし込みましょう。
例えば、塾の生徒の成績に「個別面談回数」の影響が大きいのであれば、
・成績が悪い生徒は塾を退学する可能性が高まるため、週に1度個別面談を実施する
→個別面談の回数を会社内で共有することで、目に見える施策の進捗確認を行う
などの具体的な施策に落とし込むことができます。
※さらに踏み込んだ話をすると、個別面談で「生徒とどういった話をするのか」などの面談の質自体が影響する可能性もあります(逆に言うと、面談の回数が多くても質が悪ければ意味がないということ)。その場合、生徒との個別面談が得意な先生のナレッジを共有するという施策も重要になります。

長々と書きましたが、
・分析がうまくいかない→分析方法を見直す
・分析がうまくいく→結果を具体的な施策に落とし込む

といったステップを踏むと良いと思います。

3. 重回帰分析の注意点

ここまでで、重回帰分析の基本的な考え方から実践までを理解いただきました。ここからは、実際に重回帰分析をするにあたって注意すべき点について解説します。

3-1. 全てを数値データにする

重回帰分析に用いるデータは全て数値でなければなりません。なぜなら重回帰分析は、値の足し合わせによって目的変数を予測しようとする分析であるためです。よって、分析前に”男性/女性”、”管理職/平社員”のような定性的データを数値に変換する必要があります。定性的データを数量データに置き換えた変数のことをダミー変数と呼びます。
図(ハンズオンの例だと、どんなものがダミー変数に当たるのか)

3-2.サンプル数が十分かどうか確認する

一般的に重回帰分析で必要なサンプル数は「説明変数の10倍の数」と言われています。詳しくは専門的な話になるため、ここでは割愛しますが、大体の目安として覚えていて損はないです。

3-3. 分析に使用する説明変数を厳選する

重回帰分析に使用する説明変数が多いと、適切な結果を得にくくなります。なぜなら説明変数が多くなる分、投入した説明変数の影響が微妙に影響し合って、思わぬ結果が偶然出てしまう可能性があるからです。

説明変数の厳選は先行研究を参考にするなどがおすすめです。またデータのサンプル数は説明した通り、説明変数の10分の1の数で分析を行うのが一般的です。

3-4. 多重共線性を取り除く

説明変数間に強い関連性があるとき、「多重共線性がある」といいます。
図(多重共線性を表すやつ)

多重共線性はmulticollinearityの略でマルチコと呼ばれることもあります。多重共線性がある場合は分析結果の解釈がとても難しくなってしまうため、どちらか一方の変数を分析から除く必要があります。Excelを使っての分析ならば分析ツール機能の“相関”で予め変数間の関連の強さを確認し、多重共線性を取り除いてから重回帰分析を行いましょう。

3-5. 目的変数に誤りがないか確認する

そもそも、分析を行うための目的に即した目的変数の選定に誤りがあれば、重回帰分析を実施したとこで意味はありません。例えば、「塾での生徒の勉強のやる気を分析する」という要望があった際に、目的変数を「今月塾に来た回数」と設定したとします。意図としては「塾に頻繁に訪れる生徒は、勉強のやる気が高いからだろう」という仮説の下です。ただ、塾に来た回数が多いからといって、その生徒の勉強のやる気が高いとは言い切れません。もしかしたら、親に無理やり来させられている、塾の友達に会うために来ているだけかもしれません。

このように、ビジネスにおいては「目的変数を正しく設定できるかどうか」が分析の鍵を大きく左右します。分析対象の業界に関するドメイン知識はもちろんのこと、現場を観察し感覚的な部分を自身で体感することも大切です。

3-6. 信頼性の高いデータかどうかを確認する

重回帰分析に限った話ではないですが、データの取得に誤りがあれば分析結果も納得のいく結果は得ることができません。分析をする前に、対象のデータの値は実務的な観点で正しいものかどうかを確認しましょう。
例えば、「塾テストの生徒の偏差値」に90.2というデータがあれば、これは感覚的に「おかしいな?」と思いますよね(実際に偏差値90.2は不可能な数値ではないですが)。

4. まとめ

今回は、重回帰分析の考え方や実践、結果の解釈を学んでいただき、ビジネスへの活用シーンをお伝えしました。
重回帰分析はビジネスの中で使用されることが多く、活用できる人材も理系/文系問わず多い印象です。

しかし、
・重回帰分析の結果を正しく解釈する
・結果から具体的な施策に落とし込む
・分析がうまくいかない要因を追求する
・そもそも正しい分析が行えているのかを解釈する
といったことに関しては、追えている人が少ないです。逆に言うと、重回帰分析の手法が実践でき、上記の部分も洞察ができる人材になれば、仕事の幅も広がり市場価値の高い人材になれると思います。

共に頑張っていきましょう!





この記事が気に入ったらサポートをしてみませんか?