見出し画像

成田悠輔のコロナモデルを中学数学で解説してみるぞー

学界の先生がたにおこられそう。でもやります!
さぁ、今回は意欲作ですわ。有料記事にしたいくらい。

最後に大事な注意点を書きますので読みとばしても最後は読んでください。

まえにちょっと触れましたが「重回帰」なんてむつかしいコトバをつかって分かりにくかったようです。

$$
y=β1x1+β2x2+β3x3+...+ϵ
$$

これが多重解析ですが、忘れましょう。中学生にベータとかイプシロンはいらないわ。

これでどう?

$$
q=a_{1}x_{1}+b_{1}y_{1}+E
$$

かなりシンプルになったわねえ。本当に成田先生の論文と関係させられるのーって? 式はいっしょでしょ。 ベータとかいってるだけ。

内容もかえます。

コロナはヤメ、相撲のつよさにします。

q 左が相撲の強さです。 なにが説明されたかの数字です。

ここで、40人のクラスを想像してください。

ちょっと待ってね、相撲っていうのは私の趣味とかじゃなくて、足の速さとかだと困る理由があるの、それを言うからね。

x は身長、y は体重にしたくて、そうすると相撲が計算しやすいでしょう。

あと八百長も統計学で取りあげらりゃすいのよ、ちょうど負けこすところで分布がくずれるの。

整理しまーす。

q = 相撲のつよさ
x = 身長
y = 体重
Eっていうのは、誤差なんだけれどあとでね。
a = 身長の係数
b = 体重の係数

「係数」も少し待って。

「多重解析」っていうのは、

$$
q=a_{1}x_{1}+b_{1}y_{1}+E
$$

この式が、

$$
q=x_{40}x_{40}+y_{40}y_{40}+E
$$

ここまで人数ぶん空中に浮いているのをイメージできれば、ほぼ終わりです。

というか、それがすべて。

40コの式を計算すと、一人ずつaとbがでます、これが係数です。

係数はふつう大きいと大きく、速いと速く、重いと重く出ます。

単純でしょ。

40人ぶんの式が行列みたいにならんでいるのを想像して。

$$
y=β1x1+β2x2+β3x3+...+ϵ
$$

だから b じゃなくて β をつかってる、それだけ。 

この重回帰分析がなにを目的にしていたの?

仮説を立証するためです。それが統計学です。

皆さんにご説明するために逆になりましたが、統計でイチバン大切な仮説を立てます。

仮説1.身長と体重は相撲のつよさに関係しているか
仮説2.身長と体重に相関はあるか

仮説


こんな関係になりそうね。

・note推奨のソフト有料なんだもん、パワポでつくちゃったんできれいじゃないけれど、分かればいっしょでしょ。

散布図ね。

うん、なんか、いい感じに散らばってくれたじゃない?

線をひきまーす。

これでたとえば、

$$
q=0.3_{1}x_{1}+0.24_{1}y_{1}+E
$$

こういうのが、

$$
q=0.28_{ 2}x_{2}+0.2_{2}y_{2}+E
$$

点々々って、

$$
q=0.3_{40}x_{40}+0.2_{40}y_{40}+E
$$

までできます。

この a と b だっだたところ、係数を40人ぶん計算するのね。

どうやって?

最小二乗法をつかいます。

中学生にできないですって?

StataやSPSSなど学生に無料でソフトの一部機能を提供している会社はありますし、そこまでむつかしくなくても、なんと、エクセル、これで最小二乗法も、回帰分析もできます。

最小二乗法は重回帰の計算過程でのプロセスで最終的には一つの式が提示されます。

$$
q=0.3_{40}x_{40}+0.22_{40}y_{40}+E
$$

40人ぶんでこれが出たとしましょう。

散布図の上と下にいるのは外れ値っていって厳密にはちがうけれど、E みたいなものだから消しちゃおっか。ホントは消さないでね。

$$
q=0.3_{40}x_{40}+0.22_{40}y_{40}
$$

これでみなさんは「重回帰分析」をやりました。カンタンでしょ。

でも、まーだーよー。

0.3と0.22ってなぁに? 覚えている、係数ね、これの「確からしさ」を確かめないと。

おもしろいでしょ。落語みたい。

エクセルの =LINEST これでいいんだけれど、興味がある人は自分でしらべるだろうし、むずかしい人には別記事にしてあげる。

ひとつだけ、答えの右にでるのがゼロならオッケーね。

散布図も描けるわよ、それもその記事に入れるかな、そしたら有料よ。

あぁ!忘れてた!0.3とかが大事なのはそれが企業さんのKPIとかになるから、キー・パフォーマンス・インデックスとかいって、まぁ「今年の目標」みたいな。そう言えばいいのに。

数字が小さいのはそれだけ微小な変化で、たとえば身長がすこし大きいとかで変わるということです。
工業分野だと 10^{-5} くらいはでてくるんじゃないですか、私は知りませんけれど。
金融ではpipが私の最小でした。パーセンテージ・イン・ポイント、一銭。
私の先生は市場の動きを研究されており、もっと細かく数字と時間を追っておられて、タイヘンそぉーって思っていました。

左辺を自分のすきな株、右辺を例えば、日経平均とか、すきにアレンジして分析したりもできますが、私はこの方法は現実の相場には通用しないと思います。

デリバティブの『ブラック=ショールズ モデル』でノーベル賞の マイロン
ショールズを運用メンバーに迎えたヘッジファンド、どうなりましたか。5年でおわりでしたわ。

研究者は研究者、相場師には勝てません。

最後の注意点

重回帰は重回帰なのですけれど、成田悠輔先生のスゴイところは説明変数 x のほうね、これを10 とか、20にできちゃうの。

カンタンにするために省いたけれど、単回帰(説明変数が1つ)じゃなくて説明変数が2つ以上だと、そのあいだに相関がある場合があるのね。
身長のたかい子って体重もおもそうでしょ。
そうすると見かけは正しいって言っているんだけれど本当はちがう場合があるの。多重共線性っていうんだけれど。

私いちおう修士は持っているんだけれど説明変数3つで論文審査のときに副査からダメ出しされて5回も「頑健性のテスト」っていうのやっていたの。

この分野はいかに上手にデータをコンピュータに食わせて、計算させることができるかだから、数学とコンピュータサイエンスと経済理論を少しずつ勉強していかないといけないのね。

消しちゃった e だけでも一本の論文どころか教科書になってるくらいですから、この記事はあくまで「とっかかり」です。

文章、内容、論点、証明に間違い、祖語があった場合、『クリエーターへの問い合わせ』からご連絡ください。文責は私にあります。

成田先生の論文は目の色や人種まで説明変数に加えたものであり、このような単純なものでは決してありません。

最小二乗法にしてもいきなりエクセルで計算はできますが、なんでそうなるのかの理論も知らなくてはいけません。

どうぞご理解をお願いいたします。




この記事が参加している募集

やってみた

計算式で分からない場合はノートに写してみてください。複数回かんがえても詰まったら、どこが分からないか言葉で書いて送ってください。理論もなにが疑問か聞いてください。返信します。