(5):2つの変数の関係を表す指標たち

シミュレーションしてみましょう

理屈はともかく、Excelでシミュレーションして、それぞれの指標の振舞いを観察してみましょう。まずは、質的変数どうしの関連指標から。

カイ二乗値とクラメールのVを計算してみる

図に示したような簡単なクロス表で、カイ二乗値とクラメールのVを計算してみます。

出身地と麺類の好みを10人に聞いた

どこかで聞いたような設定ですね。
いちおう説明すると、黄色い背景のセルが観測値で、10人に「どこ出身か」(A=関東、B=関西)、「うどん派かそば派か」(X=うどん、Y=そば)を聞いた、みたいに理解してください。「関東(A)」で「うどん派(X)」は3人(全体の30%)ですね。
グレーの背景のセルは期待値です。

質的変数同士の関連指標
  • chi2.test:カイ二乗検定のp値。p=0.197で、有意ではありません。

  • chi2.val:カイ二乗値。

  • cramer_v:カイ二乗値から計算されたクラメールのV。

人数を単純に5倍してみると・・・

50人に聞いてみたところ・・・
  • chi2.test:p値はうんと小さくなって有意。出身地と麺類の好みには関係がありそうだ、と結論できます。さっきはだめだったのに。

  • chi2.val:カイ二乗値は、(電卓では丸め誤差が出ますが)ちゃんと5倍になっています。$${1.667\times5=8.333}$$です。

  • cramer_v:まったく同じです。

人数を単純に5倍しただけで有意に変わっていいのか?

人数を単純に5倍しただけなので、全体の傾向は何も変わっていないはずです。最初、「関東(A)」で「うどん派(X)」は「全体の30%」(10人中3人)でしたが、5倍してもやはり、「全体の30%」(50人中15人)です。
カイ二乗値は、全体の人数(=サンプルサイズ)に影響されて大きくなってしまいますが(それにともなってp値も小さくなる)、クラメールのVは、サンプルサイズには影響されません

共分散と相関係数を計算してみる

次に量的変数同士の関係。なんでもいいので2つの量的変数XとYがあると思ってください。

共分散(cov)と相関係数(cor)
  • cov(共分散):上の例では0.6です。

  • cor(相関係数):上の例では0.3です。

データを全部10倍してみた

どうして10倍するん? という感じもしますが、「cmで測ったけどやっぱりmmで測ることにした」みたいな場面でしょうか。「2cm」じゃなくて「20mm」に直したということにしておきます。指標はどうなるでしょうか。

共分散(cov)と相関係数(cor)
  • cov(共分散):0.6が60になりました。なんと100倍です。

  • cor(相関係数):全く同じで、0.3です。

もともとの値を単純に10倍しただけなので、XとYの関係が変わったわけではありません。散布図を見てもそのことがよくわかります。けれど、共分散の方は、たとえば測定単位の変更などを行うと、それに影響された数値が変わってしまいます。相関係数は、そのような影響は受けません

シミュレーションしてみよう

こういう、意味のよく似た指標とか、違いを説明されても「本当か?」と思うことがありますね。シミュレーションができるなら、やってみるといいです。実際にExcelに数式を打ち込むことで、「何を使ってどう計算しているんだっけ?」ということの理解も深まります。そういう作業って、自分でとったデータを分析するときに必ず役立ちますからね

シミュレーションをしたファイルです。自己責任でご自由にお使いください。