ロジスティック回帰

概要

 複数の要因から、一つの結果を求めることができる解析。ただし、得られるのは2値変数のオッズ比(の対数)である。2値変数のため、「生」か「死」といった結果が得られる。連続数を求めたい場合は、「血圧130以上」「血圧130未満」という2値にして求めることができる。一方で、要因の方は連続変数と2値変数の両方が可能となる。
 オッズ比とは、基本的に二つの事象の割合を示している。「生」に対する「死」のオッズ比が1を超えていれば、生よりも死が発生しやすい。事象がきわめて稀であれば、オッズ比はリスク比に近く。「オッズ比の対数」の場合、正の値であればオッズ比が>1となり発生しやすい。
 3値以上の変数(例えば、白人、黒人、それ以外)の場合は、「黒人である」「黒人ではない」と「それ以外である」「それ以外ではない」という二つの要因に分ける。

ロジスティック回帰の流れ

単変量解析:この時点では、できるだけ多くの説明変数を準備する。単変量解析の結果p < 0.05に対して、ロジスティック回帰解析の説明変数とする。

なお、論文には掲載しなくとも箱ひげ図などで正規分布しているどうかや外れ値を確認する。また、目的変数と説明変数でscatter plotをして、相関関係があることを確認する。また、連続変数の説明変数の間の相関関係も確認する。

ロジスティック回帰解析:p < 0.05 のものだけが独立した関連要因とする。ここで得られるのは、2値変数については、0(FALSE)に対して1(TRUE)のオッズ比の対数、連続変数については1上がった時のオッズ比の対数である。なお、ロジスティック回帰で説明変数を減らす手法にはいくつか種類があるが、ステップワイズがもっとも一般的。

適合度の検定 Hosmer-Lemeshow 検定:これは p > 0.05 の方が、モデルが適合していると解釈できる。

考察

多変量解析は、
y = b1 x1 + b2 x2 + … + intercept

という形をとる。しかし、y と x1 が1次線形かどうかはわからない。単回帰であれば、scatterplot することで2次曲線や対数曲線などと判断することができる。

説明変数が連続変数の場合、値が1上がった際の目的変数との関係を示す。しかし、x1値が大きくわかった場合は上の式のb1に影響が出るだけで、有意差は変わらないのだろうか?要確認。

ロジスティック回帰の例

Seiler S, Schmidt H, Lechner A, Benke T, Sanin G, Ransmayr G, ... & Schmidt R (2012). Driving cessation and dementia: results of the prospective registry on dementia in Austria (PRODEM). PLoS one, 7(12), e52710.

参考

医学統計勉強会

この記事が気に入ったらサポートをしてみませんか?