見出し画像

統計検定2級の対策問題(5/13週の3問)

統計検定2級が実施されるまで、毎週月曜日に統計検定2級に向けた対策を公開します。今週は
1. 確率分布
2. 期待値・分散の性質
3. 分散・共分散と相関係数の性質
について復習しましょう。(解答は金曜日に公開予定です。)

1. 確率分布

確率分布とは : 統計学や確率論では、さまざまな現象を「確率分布」を通して考察することを目指します。

例えば、店舗に1日当たりの来客が来るのか知りたいとしましょう。来客数は日によってまちまちで、ピンポイントに幾らくらいと言うのは難しいものです。同じような1日でも、10名来ることもあれば、15名来ることもあるでしょう。そんなとき、x人来客する確率がいくらという表が得られると、私たちは安心できるのではないでしょうか。

このような表を数学では「確率分布」と言います。統計学の目標は、この確率分布をデータから推測することなのです。以下では、確率分布に親しみを持てるように、よくある典型的な問題を解いてみましょう。

1問目 : ある地域では面積x[m²]の賃貸物件の家賃y[万円]は、次のように決まっていることが知られています。
・ y = -5.0 + 0.5 x + ε
・ εは期待値μ=0・分散σ²=4.0の正規分布に従う。
このとき、次の問いに答えてください。なお適宜、正規分布表を参考にしてください。
(1) 面積が20[m²]の賃貸物件を無作為に3件選んだとき、3件とも家賃が7万円以下になる確率はいくらでしょうか。
(2) ある面積x[m²]の賃貸物件から無作為に1件だけ賃貸物件を選ぶ。95%の確率で家賃が10万円に収まるようにしたいとき、面積x[m²]はいくらに設定するのがよいでしょうか。

コメント : この問題が解けたら、2018年11月に実施された統計検定2級の問8を解いてみることをお勧めします!

2. 期待値と分散の性質

期待値と分散 : 確率分布の特徴を抑えることは、さまざまな現象を統計的に理解する上でとても大切なことです。特に、
・期待値 : 平均的にいくら位の値をとるのか?
・分散 : 平均からどれだけ散らばりやすいか?
の2つは最も基本的な確率分布の特徴を表現する値です。興味のある確率変数をXと書くとき、Xの期待値をE[X], Xの分散をV[X]と表記するのが一般的です。(Eはexpected valueの"e"、Vはvarianceの"v"です。)

期待値と分散の性質 : 期待値や分散の性質を抑えると、さまざまな現象をスムーズに理解するきっかけになります。期待値の性質をみてみましょう。
・ E[X+Y] = E[X] + E[Y]
・ E[aX] = aE[X]
一方で分散は次のような性質を持ちます。
・ V[aX] = a²V[X]
・ V[X+Y] = V[X] + V[Y] … XとYが独立な時に限る!
・ V[X+a] = V[X]
これらの性質は、式の意味をよく考えて理解しておくのが大切です。例えば、以下の典型的な問題を考えてみてください。

2問目 : あるサンドウィッチ工場では、2個のサンドイッチを1パックにして販売しています。ある日、工場長はパック詰めの方法として
方法1. 無作為に2つのサンドウィッチを選んで1パックにする。
方法2. 同じ重さのサンドウィッチをペアに選んで1パックにする。
のどちらを採用したほうが、パックの重さがまちまちにならずに済むかを検討しています。サンドウィッチの重さは、期待値100[g], 標準偏差2[g]の確率分布に従っていると仮定して、以下の問いに答えてください。
(1) 方法1の場合、1パックあたりの重さの期待値と標準偏差はいくらになりますか。
(2) 方法2の場合、1パックあたりの重さの期待値と標準偏差はいくらになりますか。
(3) 方法1と方法2で、どちらの方法を採用したほうがよさそうでしょうか。

コメント : この問題が解けたら、2014年11月に実施された統計検定2級の問9を解いてみることをお勧めします!

3. 分散・共分散と相関係数の性質

相関係数のメリットとデメリット : 2つの変数の間の関係に興味があるとき、「相関係数」は良く確認される指標の一つです。しかし相関係数はその解釈のしやすさと裏腹に、期待値や分散が持つような計算するうえでの良い性質を持っていないことが知られています。

共分散 : ところで相関係数は「共分散」から定義されていました。
・ XとYの相関係数 = XとYの共分散 / (Xの標準偏差×Yの標準偏差)
実は、右辺に現れる共分散は、その解釈のしづらさの代わりに計算するうえではとても良い性質を持っていることが知られています。XとYの共分散をCov(X, Y)、相関係数をCorr(X, Y)と表記することが一般的です。

共分散の性質を復習しましょう。
・ Cov(X+Y, Z) = Cov(X, Z) + Cov(Y, Z)
・ Cov(aX, Y) = aCov(X, Y)
・ V[X] = Cov(X, X),   Corr(X, Y) = Cov(X, Y) / (Sd[X] * Sd[Y])
以下の典型的な問題を考えてみてください。

3問目 : ある国では、街の銀行の数と1年間の犯罪の件数との間の相関係数が0.6であることが知られている。ある研究者は街の人口に注目し、
・銀行の数と1年間の犯罪の件数はいずれも人口によって説明できる。
という仮説を考えていて、相関係数は人口の影響を除いて考えればさほど大きくはないのではないかと考えている。
 研究者の仮説は、人口をX, 銀行の数をY, 犯罪の数をZとしたとき、以下の統計モデルを考えていることを意味しています。
・ Y = a + bX + cε
・ Z = d + eX + fε'
いま、以下の3つのことを仮定します。
・ X, Y, Z, ε, ε'はすべて標準化された確率変数としてよい。
・ XとYとの相関係数は0.8, XとZとの相関係数は0.7である。
・ Xとε, Xとε'の間の相関係数は0である。
このとき、以下の問いに答えてください。
(1) a, b, c, d, e, fの値を求めてください。
(2) εとε'との間の相関係数の値を求めてください。

コメント : この問題が解けたら、2016年11月に実施された統計検定2級の問8を解いてみることをお勧めします!

4. おわりに

このノートはピースオブケイク社での統計学勉強会のために作成した資料です。参加者のみなさまにこのような機会を頂いたことを感謝申し上げます。

サポートをいただいた場合、新たに記事を書く際に勉強する書籍や筆記用具などを買うお金に使おうと思いますm(_ _)m