【2回目】100日後にベイズ統計ができるゆーみん【27日目】

2021年7月29日 06:30

おはようございます！
もはや朝活になりつつある100日ベイズです。

次はポアソン回帰です！

データは二項ロジスティック回帰で使ったデータと同じです。

左から、学生のID、バイトが好きかどうか、試験の成績、総授業回数、実際に授業に出席した回数です。

今回は、総授業回数Mが応答変数となり、今回の解析の目的は
「説明変数AとScoreが総授業回数Mにどれほど影響しているか知りたい」です。

総授業回数のような離散的で負の値を取らないカウントデータに対しては、ポアソン分布を用いた回帰が第一choiceとなります！

5.4.1 メカニズムの想像

総授業回数はカウントデータなので負の値を取らない。
そこでAとScoreの2つの説明変数の線形結合を0以上の範囲に変換して、平均授業回数λが決まると考える。

0以上の範囲へ変換するために使われることが多い方法は指数関数expを使う方法である。

説明変数の線形結合を単調増加関数である指数関数で変換しているので、それぞれの説明変数の値が大きくなるに従ってYは単調に大きくなる（または単調に小さくなる）という仮定があります。

また、パラメータλが十分に大きい場合は、ポアソン分布は正規分布で十分よく近似できるので正規分布を使ってもいいそうです。

メカニズムの想像は分布の知識がないと無理です...
難しいです

5.4.2 モデル式の記述

さっきの説明変数の線形結合を単調増加関数である指数関数で変換、Mはポアソン分布を形にしていきます。

λ[n] = exp(b1+b2A[n]+b3Score[n]) n=1,...,N
M[n] ~ Poisson(λ[n]) n=1,...,N

ここではNは学生の人数を表し、nは学生のインデックスです。
Poissonはポアソン分布を表します。

データからb1, b2, b3を推定していきます！

今日はここまでです。
また明日お会いしましょう！

この記事が気に入ったらサポートをしてみませんか？