【2回目】100日後にベイズ統計ができるゆーみん【23日目】
今日は5章ロジスティック回帰です!
今回のデータはいままでのデータに天気の情報が入ります.
Wether:天気(A:晴れ,B:曇り,C:雨)
5.3.1 解析の目的
ここでは3つの説明変数(バイトが好きかどうか,学問への興味,天気)で出席確率がどれほど予測できるか
それぞれの説明変数が出席確率にどれほど影響しているのかを知りたい
の2つを目的とする.
今回は出席確率を考えるので,ロジスティック回帰を行う.
5.3.2 データ分布の確認
このデータの場合,A列,Wether列,Y列が0/1の二値やカテゴリー値であるため,散布図は書きにくい.
ここで天気ごとにYを集計してみると天気が晴れの場合,他の天気と比べて出席確率が高そうなことがわかった.
5.3.3 背景知識を使った値の変換
Weather列はこのままでは離散的な文字列データであり回帰で扱いにくい.このようなデータは経験から数値データに変換するのが定石らしい!
ここでは「A,B,C」をそれぞれ「0, 0.2 ,1」に置き換える.
これは経験から曇りの影響と雨の影響の大きさの比を1:5に固定したことに想定する.
このように背景知識を仮定としてモデルに組み込むのはモデリングの重要なステップであるそうです.
5.3.4 メカニズムの想像
ロジスティック関数で出席確率qに変換した後に,二項分布ではなくベルヌーイ分布に従ってYが決まるところが異なっています.
ロジスティック関数のパラメータθは[0, 1] の範囲の実数なので,ロジスティック関数(inv_logit)と組み合わせて使うことが多い.
今日はここまでです.
また明日お会いしましょう!
この記事が気に入ったらサポートをしてみませんか?