見出し画像

回帰分析を中学生でもわかるようにまとめてみた。

こんにちは!
SeamLess株式会社の公式NOTEへようこそ。
縫い目のない世界を創るというビジョンのもと、この世界をもっとストレスフリーに、より快適なもにする活動をしています。
今回、回帰分析についての記事を更新いたします!


回帰分析とは?

回帰分析(かいきぶんせき)とは、あるデータの集まり(データセット)から、二つ以上の変数の間にある関係を見つけ出すための統計的な方法です。簡単に言うと、一つの変数がどのように他の変数に影響を与えるかを理解し、将来の予測をするための手段です。

例で考えてみよう

例えば、毎日の気温とアイスクリームの売り上げの関係を考えてみます。気温が高い日にアイスクリームがたくさん売れることが予想されますね。回帰分析を使うと、気温がどれくらい上がるとアイスクリームの売り上げがどれくらい増えるかを予測することができます。

回帰分析の基本概念

1. 変数

回帰分析では、変数(へんすう)と呼ばれる値を使います。変数には二つの種類があります:

  • 独立変数(どくりつへんすう):予測に使う変数(この例では気温)

  • 従属変数(じゅうぞくへんすう):予測される変数(この例ではアイスクリームの売り上げ)

2. 線形回帰

回帰分析の一つの基本的な方法が「線形回帰(せんけいかいき)」です。線形回帰では、データポイントがどのように直線に近い形で分布しているかを調べます。この直線を「回帰直線(かいきちょくせん)」と呼びます。

回帰直線を引く

回帰直線を引くためには、次の数式を使います:

[ y = a + bx ]

  • ( y ):従属変数(アイスクリームの売り上げ)

  • ( x ):独立変数(気温)

  • ( a ):切片(せっぺん、直線がy軸と交わる点)

  • ( b ):傾き(けいしゃ、直線の傾き)

例を使って説明

ある日、気温が30度のときにアイスクリームが100個売れたとしましょう。別の日には気温が35度で150個売れました。これらのデータを使って回帰直線を引くことができます。

  1. データを集める

    • 気温(( x )):30度、35度

    • 売り上げ(( y )):100個、150個

  2. 数式を使って回帰直線を求める

    • 切片(( a ))と傾き(( b ))を計算します。この計算は少し複雑ですが、簡単に言うと、データの平均を使ってこれらの値を求めます。

計算の結果、仮に次のような回帰直線が得られたとします:

[ y = 10 + 4x ]

この式は、気温が1度上がるごとに、アイスクリームの売り上げが4個増えることを意味します。

予測をする

この回帰直線を使って、例えば気温が40度の日にアイスクリームがどれくらい売れるかを予測してみましょう。

  1. 気温(( x ))を40度とします。

  2. 回帰直線の式に代入します:

[ y = 10 + 4 \times 40 ]
[ y = 10 + 160 ]
[ y = 170 ]

つまり、気温が40度の日には170個のアイスクリームが売れると予測できます。

回帰分析の応用例

回帰分析は、いろいろな場面で使われています。いくつかの例を見てみましょう。

1. 学校の成績

例えば、ある生徒の家庭学習時間とテストの成績の関係を調べることができます。家庭学習時間が長いほどテストの成績が良くなるのか、回帰分析を使って確認できます。

2. ビジネス

ビジネスでは、広告費用と売り上げの関係を調べるのに回帰分析が使われます。広告費用を増やすと売り上げが増えるのか、どれくらい増えるのかを予測できます。

3. 健康

医療の分野では、例えば喫煙本数と肺の健康状態の関係を調べることができます。喫煙本数が増えると肺の健康状態がどれくらい悪くなるのかを予測できます。

回帰分析の注意点

回帰分析を使うときにはいくつかの注意点があります。

1. 相関と因果の区別

相関(そうかん)は、二つの変数が一緒に変動する関係を指しますが、それが必ずしも因果関係(原因と結果)を意味するわけではありません。例えば、アイスクリームの売り上げと溺れた人の数には相関がありますが、これは両方とも暑い夏に増えるためで、アイスクリームが溺れる原因ではありません。

2. 外れ値(アウトライア)

外れ値は、他のデータポイントから大きく外れた値です。これらが回帰直線に影響を与えることがあります。外れ値を注意深くチェックし、必要に応じて除外することが重要です。

3. モデルの適合度

回帰直線がどれだけデータにうまくフィットしているかを確認する必要があります。これには、「決定係数(けっていけいすう、( R^2 ))」という指標が使われます。値が1に近いほど、モデルはデータに良くフィットしていることを示します。

線形回帰以外の回帰分析

線形回帰は基本的な方法ですが、他にもいろいろな回帰分析の方法があります。

1. 多項式回帰

多項式回帰は、回帰直線が曲線になる場合に使います。例えば、成長曲線や季節変動をモデル化するのに適しています。

[ y = a + bx + cx^2 ]

2. ロジスティック回帰

ロジスティック回帰は、結果が二つのカテゴリー(例: はい/いいえ、成功/失敗)に分かれる場合に使います。これは、二つの状態の確率を予測するために使われます。

[ P = \frac{1}{1 + e^{-(a + bx)}} ]

回帰分析の実践

回帰分析は、手計算ではなく、コンピュータを使って実行されることが多いです。以下に、簡単なPythonコードを使った回帰分析の例を示します。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# サンプルデータ
x = np.array([30, 35, 40, 45, 50]).reshape(-1, 1)  # 気温
y = np.array([100, 150, 170, 190, 220])  # アイスクリームの売り上げ

# 回帰モデルの作成
model = LinearRegression()
model.fit(x, y)

# 予測
y_pred = model.predict(x)

# 結果のプロット
plt.scatter(x, y, color='blue', label='実際のデータ')
plt.plot(x, y_pred, color='red', label='回帰直線')
plt.xlabel('気温 (℃)')
plt.ylabel('アイスクリームの売り上げ (個)')
plt.legend()
plt.show()

# 回帰式
print(f'回帰式: y = {model.intercept_:.2f} + {model.coef_[0]:.2f}x')

まとめ

回帰分析は、データの中に隠れた関係を見つけ出し、将来の予測をするための強力なツールです。基本的な線形回帰から多様な回帰手法まで、さまざまな応用があります。データの特性を理解し、適切な回帰分析を用いることで、より正確な予測と洞察を得ることが可能です。


お読みいただきありがとうございました。
今後も皆さんのためになる記事を更新していくので、ぜひいいねとフォローお待ちしております!
SeamLessのサービスに関して、ご興味のある方は下記リンクからホームページをご覧ください!
SeamLess株式会社 HOME

To the next episode!! See you next time!!

SeamLess株式会社
広報チーム

この記事が気に入ったらサポートをしてみませんか?