見出し画像

統計が嫌いな方へ② [回帰モデル]

こんばんは。今日もお疲れ様です。

「面白い地図を書く」をテーマに大学生が統計学を、一晩で、できるところまで勉強する試みです。

意図する読者は、
「昔ちょっと統計を勉強したけど、ゆるゆる次のステップに繋げたい!」「ちょっとGISが使えるけど出来ることを増やしたい!」
という老若男女です。よろしくお願いします。

プロフィール:
大学二年生
建築(都市計画)専攻
Pythonちょびっと書ける
Rちょびっと書ける
QGISちょびっと使える

資料概要

・細い文字以下は興味が湧いた所のみご覧ください。

細い文字とは、この文字の事。

・通し番号を付けますが、それぞれだけで完結するように心がけます。

本文は短く表記するため、文語を採用します。


統計モデルへの入り口

モデリングとは? 

あるデータとあるデータの関係を、数式などで示す事。
データの背後にある現象を、数式で表したものを統計モデルと呼ぶ。

単回帰モデル

あるデータ量aがあるデータbに影響を与えている時をイメージする(地域の人口とコンビニの数など)。このように、一つの要素から影響を受けているとするもの。

この時、aを説明変数・bを被説明変数と呼ぶ。

b = Xa +Y+ε のようなモデルが形成するとして、Y定数項X回帰係数と呼ばれる。この直線を、回帰直線と呼ぶ。εを誤差項と呼ぶ。

誤差項の設定には、誤差がどのような性質を持つかを把握することが必要である。説明変数の大きさに関わらず、誤差が同じ散らばり(分散)を持っている事が、最尤推定に必要である。

最小二乗法

ある予測値を決めると、実際の値との差が生まれる。その差を残差と呼ぶ。

通常最小二乗法

この残差の二乗の和を最小にするように、回帰曲線を作る変数(回帰係数)を決める手法を、通常最小二乗法(OLS)と呼ぶ。

この方法で定める変数は、実際の値の和や二乗和で表現できる。このような推定量を、線形推定量と呼ぶ。

残差の二乗の不偏分散を取ったものを、回帰係数の有意性の検定に使う事がある。

OLSによって求められた推定量は、最良線形不偏推定量(BLUE)となる。(不偏性を持つ推定量の中でも、その分散を最も小さくする推定量)

パラメータの検定

上記方法で検定を行っても、「本当に推定した回帰直線(曲線)が存在するのか」「a、bに関係があると結論づけてもいいのか」という疑問が残ってしまう。

回帰係数/SQRT(回帰係数の不偏分散) = tとして、t検定を行う。
自由度はN-2となる。

決定係数

回帰直線(曲線)のあてはまりの良さを判断する統計量があり、決定係数と呼ばれる。
1 -(残差和/平均と標本の二乗和)
で求められ、1に近づくほど、モデルの精度が良いとされる。

重回帰モデル

複数の要素から影響を受けるモデルを考える(飛行機の搭乗料金に、航続距離、燃料代が影響するなど)。

既出の用語を用いると、説明変数が複数存在する場合である。

重回帰モデルの説明変数は、自由度調節済み決定係数を用いる。これは、決定係数の、説明変数が増えるほど精度の良い値が出るという性質を鑑みたものである。

あとがき

変わらずプログラミングには入れず申し訳ないです。
一夜がもう明けそうなので、区切り良く切って続けていきたいと思います。

参考文献

「Rではじめる 地理空間データの統計解析入門」 村上大輔


ありがとうございます!!!!!!!!!!!!!