線形モデルのざっくりとしたまとめ

2024年6月9日 15:41

線形モデルについて勉強したことを備忘録としてアウトプットします。
素人なので内容が正しい保証はありませんのでご了承ください。

書いてあること
- 一般線形モデル、一般化線形モデル、多項式回帰、一般化加法モデルの違い
書いてないこと
- 細かい理論的な話

線形モデルとは

データ同士の関係性を表した数式のことを線形モデルと呼び、例えば社員の給料を勤続年数や役職から予測したり、ある日の売上金額を気温から分析したりすることができます。このように線形モデルを活用することで、データ間の関係性に基づく予測や分析が可能になります。

$$
y =b_0 +b_1x_1 +b_2x_2 + \dots + b_nx_n
$$

上の式は一般線形モデルの式です。$${x}$$が1つだけの場合を単回帰モデル、2つ以上ある場合を重回帰モデルといったりします。
データを説明する変数(上の式$${x}$$)を説明変数や特徴量と言ったり、説明される変数(上の式$${y}$$を目的変数と言ったりします。(呼び方は文献によってまちまちです)
売上金額を気温で表す線形モデルの場合は次の式となります

$$
売上金額 = b_0 + b_1 \times気温
$$

この場合、気温が1度上がったときに売上金額が$${b_1}$$だけ上がるというとらえ方をします。係数を見ることで、説明変数がどれくらい目的変数に影響を与えているかが分かります(係数が大きいほど影響が大きい)
予測をするときには、気温を特定の値に固定して売上金額を予想します。

線形モデルの求め方

与えられたデータをもとに数式を推測します。
求める手法はいくつかありますが、最小二乗法という手法があります。

手元にあるデータをもとに、線形モデルの式における係数を考えるときに、実際のデータと線形モデルによって求めた値の誤差が小さくなるように係数$${b}$$を決める、という方法です。

下の図では、青のドットが手元にある売上データで、赤い直線が求めた線形モデルを表す直線です。

他のパターンの線形モデル

自分が分からなかったのが、線形モデルの説明変数がただの$${x}$$だったり、$${x^2}$$とか多項式の形になっていたりするパターンがあり、それらの違いがよく分かりませんでした。

一般線形モデル

最初に挙げた式は一般線形モデルと呼ばれる式になります。

$$
y =b_0 +b_1x_1 +b_2x_2 + \dots + b_nx_n
$$

目的変数(正確には予測と実際の値の誤差)が正規分布に従っている前提があります。

多項式回帰

データが線形で表せないときに、多項式(説明変数の累乗)を追加します。
一般化線形モデルより表現できるデータが多くなります。

$$
y =b_0 +b_1x_1 +b_2x^2_1 + \dots
$$

目的変数は正規分布に従っている必要があります。

一般化線形モデル

一般線形モデルは、目的変数が正規分布に従っていることが前提でしたが、それ以外の確率分布に従うときには一般化線形モデルというものになります。
例えば目的変数がベルヌーイ分布や二項分布に従う場合はロジスティック回帰、ポアソン分布に従う場合はポアソン回帰と呼ばれるものになります。

$$
f(y) =b_0 +b_1x_1 +b_2x_2 + \dots + b_nx_n
$$

一般化加法モデル

一般化線形モデルをさらに汎用性を高めた式です。一般化線形モデルの目的変数が様々な確率分布に従うことを前提にして、特徴量が関数になったものが一般化加法モデルです。

$$
f(y) =f_1(x_1) +f_1(x_1) + \dots + f_n(x_n)
$$

多項式回帰とは違って、累乗に限らず関数はどの形をとってもよいという認識でいます。
一般線形モデルよりも表現できるデータが増えますが、その分モデルがデータに適合しすぎて未知のデータに対応できないことも発生する可能性があります。

ざっくりと線形モデルの違いについて書いてみました。なんとなく違いが分からない人がいたらこの記事でぼんやりと分かってもらえると幸いです

参考文献

曽我部東馬著、曽我部完監修、Pythonによる異常検知、オーム社、2021
金本拓著、因果推論
基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ、オーム社、2024
Peter Bruce、Andrew Bruce、 Peter Gedeck　著、黒川利明　訳、大橋真也　技術監修、データサイエンスのための統計学入門第2版、オライリージャパン、2010

この記事が気に入ったらサポートをしてみませんか？