Lec3: 単回帰分析①モデルの構造

皆さんこんばんは。矢野大樹です。今日は東京都議会議員選挙ですね。今開票状況を見守りつつ、記事を書いています。当方は大阪府民なので、都政のことは東京都民の方に判断していただきたいというスタンスで、都政に対するコメントは控えさせていただきますが、選挙には皆さん行きましょうね。

さて、今日からいよいよ単回帰分析に入っていきます。今日は、単回帰分析のモデルと、専門用語を覚えましょう。ちょっとややこしい部分もあるので、注意してみてくださいね。

まずはモデルから、以下の図をご覧ください。

モデルの構造

単回帰分析とは、説明変数が1つの回帰モデルのことです。なので、非常にシンプルな式で表すことが出来ます。モデル自体は中学校2年生で学習する1次関数と同じです。ただし、単回帰分析での切片は、中学校の時に学習したy切片(x=0の時のy座標)ではないということに注意してください。これは難しいのですが、例えば、駅からの距離をx(m)、家賃をy(円)としたデータを用いて回帰分析を行った場合、β0の切片は、駅からの距離が0mの家賃を表しているわけではないということです。あくまで、データの傾向を表したもっともらしい直線を引いたときに得られる値であることに注意してください。なので、実際にグラフで表すときは直線はy軸上に乗らないよう書くことが多いです。

グラフで見るともっとわかりやすいですね。

画像2

画像3

言葉の定義がややこしいので、混乱した場合は最初に示したモデルの用語を覚えてください。誤差項と残差の違いは、簡単に言うと真の値か推計された値か、の違いです。理想は、真の値=推計された値になることですが、この点については後日取り扱います。

図のように、縦軸・横軸にそれぞれデータを点でプロットした図のことを散布図と呼びましたね。(高校1年生数学Ⅰ『データの分析』) 単回帰モデルは、この散布図の傾向を最もよく表した直線のことです。これはとても大切なので、頭に入れておいてくださいね。

さて、これらがモデルの基本構造になります。若干ややこしい部分はあったものの、そんなに難しくはないはずです。しっかりと抑えてくださいね。今回、回帰モデルとは、散布図の傾向を最もよく表した直線であると言いました。では、『最もよく表した』とはどういうことなのでしょうか。次回は、この『最もよく表した』という意味について解説していきます。具体的には、切片β0と傾きβ1をどうやって求めるか、ということです。ちょっとだけ数学が出てきますが、何てことはありません。高校2年生レベルの数学が分かっていれば一瞬で理解できますし、その都度補足を付け加えていきます。なので、安心してみてください。では、また来週。

Best,

Daiki

画像4




この記事が気に入ったらサポートをしてみませんか?