見出し画像

【自己啓発】統計検定3級資格取得までの道のり(コレだけは押さえておきたい!用語・公式編①)

同じ職場で働く同期や他者と差別化を図るためには、個人の能力を磨き続けることが重要です。そこで、自身の強みである分析思考と概念的思考を伸ばすために、本試験を受験することにしました。本記事では、統計検定3級の出題範囲から、”コレだけは押さえておきたい用語と公式”を各章ごとに解説を交えながらまとめます。本記事は長くなりますので①と②の2本に分けて投稿します。

1. 質的変数と量的変数

最初の方で必ずと言ってよいほど出題されるキーワードです。それぞれの意味と頻出例は以下の通りです。問題自体は簡単な部類ですが、騙されやすい問題が多いので注意が必要となります。

  • 質的変数:カテゴリーデータ(他のカテゴリと区別するための文字などの情報)⇒質的変数の例:日付、時刻、住所、男女、血液型、学籍番号、順位

  • 量的変数:数値データ(数量的な測定が可能な情報)⇒量的変数の例:納期、賃貸マンションの家賃、家から駅までの徒歩時間

2. 代表値

代表値とは、集団の性質を代表する数値のことです。代表値を求めることで複数の集団を比較することができるようになります。代表値の具体例としては、平均値、中央値、最頻値などがあります。これらは考え方自体は単純ですので、過去問演習を通して、効率的な回答方法(選択肢から逆算して短時間で回答を導き出す方法)を訓練することが大事です。

3. 四分位数と5数要約

四分位数とは、ある集団のデータを小さい方から大きい方へと順に並べ、データ全体を4つのグループに等分した際の境界となる値のことを指します。データを4つに等分するので、境界は3つあります。小さい方から順に1四分位数2四分位数(中央値)3四分位数と呼びます。四分位数を用いることで集団の大まかな分布の形状(左右対称か、裾がどちらに伸びているか等)を把握することができます。
また、第1値四分位数と第3四分位数の差を四分位範囲といい、全データの50が含まれます。この四分位範囲を2で割ったものを四分位偏差と言います(問題中で四分位範囲と四分位偏差を読み間違えないように注意下ください)。四分位範囲と四分位偏差は、どちらもデータの散らばりの尺度(散布度)となりますが、外れ値の影響をほとんど受けません

※上記は、以下の動画(Try IT)で分かりやすく解説されているので、以下2つの動画を流し見すると理解が深まると思います。

最小値1四分位数2四分位数(中央値)3四分位数最大値の5つの値は、集団のデータの散らばり具合や分布の対称性などの集団の状況を把握するための基本的なツールとなります。これらをまとめて5数要約と呼びます。

この5数要約を図にまとめることが可能です。この図を箱ひげ図と言います。箱ひげ図は一種のグラフとなります。第1四分位数~第3四分位数の間がとなります。箱の長さは四分位範囲を示します。この箱から左右に伸びる線(最小値~第1四分位数、第3四分位数~最大値)がひげです。ひげの先端が最小値と最大値を示します。そしてひげの先端からもう一方のひげの先端がデータの範囲です。

※上記は、以下の動画(Try IT)で分かりやすく解説されているので、以下2つの動画を流し見すると理解が深まると思います。

4. ヒストグラム

ヒストグラムとは、データを整理した棒グラフの1種です。ヒストグラムでは、横軸に階級、縦軸に度数をとります。横軸が必ず測定できる量的変数になっているのが特徴です。
ヒストグラムを採用した問題では、グラフの読み取りが必要となるケースがほとんどです。縦軸の度数が累積相対度数(各階級の度数÷総度数)となっている場合がありますので、注意が必要です。縦軸の度数が累積相対度数となっている場合の中央値は、累積相対度数0.5の個所をチェックします。

※上記は、以下の動画(Try IT)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。

ヒストグラムと棒グラフの違いは、以下の通りです。

棒グラフ
・扱う変数の種類(グラフの横軸):質的変数
・グラフが示すこと:棒の高さ
・棒の間隔:空ける
・何を把握できる?:カテゴリーの大小や度数の比較

ヒストグラム
・扱う変数の種類(グラフの横軸):量的変数
・グラフが示すこと:長方形の面積
・棒の間隔:詰める
・何を把握できる?:データの分布(中央の位置、峰の場所や数、歪み等)

5. 確率

確率では、以下に示す和の法則積の法則を意識することが重要となります。例えば、サイコロを1つ振る場合と2つ振る場合とで比較してみます。

  • 同時に又は連続して起こらない:の法則 ⇒ 確率A  確率B

  • 同時に又は連続して起こる:の法則 ⇒ 確率A × 確率B

問題①:サイコロを1つ振った場合、1または2がでる確率はいくつか?
⇒1がでる確率は1/6、2がでる確率も1/6です。ここで、1がでるという事象と2がでるという事象は、同時に又は連続して起こりません。そこで、和の法則を用いて、1/6 + 1/6 = 1/3 と足し算を使って確率を計算します。

問題②:2つのサイコロを振った場合、2回連続で1がでる確率はいくつか?
⇒1がでる確率は1/6です。ここで、1つ目のサイコロで1がでる事象と、2つ目のサイコロで1がでる事象は、同時に又は連続して起こります。そこで積の法則を用いて、(1/6) × (1/6) = 1/36 と掛け算を使って確率を計算します。

確率の発展形として、条件付き確率反復試行の確率があります。

まず、条件付確率です。こちらは言葉の通り、ある条件が付いた状態での確率のことです。例えば、「身長が170cm以上の人の確率(割合)」と「アメリカ人の男性で身長が170cm以上の確率(割合)」では考えるべき確率の範囲が異なり、全く異なった確率になります。前者がすべての範囲を対象とした確率であるのに対して、後者は限られた範囲の中での確率というイメージです。

数式で表すと以下になりますが、こちらの公式を覚えるというよりかは、問題分を読んで条件付確率の問題と判断できさえすればあとは国語力の問題です。解説動画などを参考に問題パターンを把握されることをお勧めします。

公式:条件付き確率

※上記は、以下の動画(Stardy-河野玄斗の紙授業)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。

次に、反復試行の確率です。こちらは、全く同じことを複数回繰り返した場合にある事象が起こる確率を指します。数式で表すと以下になります。

公式:反復試行の確率

各文字の意味は、以下を意味します。
・ある事象Aがおこる確率:p
 ・全体の試行回数:n
 ・ある事象Aの起こる回数:k
上記、公式の形と意味を覚えておくと選択肢にそのまま出てくるケースがある(実際に過去問で出題されている)ので、覚えておくと良いでしょう。また、こちらも同様に解説動画などを参考に問題パターンを把握されることをお勧めします。

※上記は、以下の動画(Stardy-河野玄斗の紙授業)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。

6. 分散と標準偏差

分散とは、「全てのデータを使ったバラツキを示す値」を意味し、「偏差平方の平均」で求まる値です。分散とは「偏差平方の平均」です。重要なことなので2度記載しました。分散というキーワードだけで覚えてしまうと、どの様に求めるか分からなくなってしまうので、分散=「偏差平方の平均」分散=「へへへ」で覚えると良いです。

あるテストの得点一覧が与えられた際の分散と標準偏差を求める場合に抑えておくポイントは以下4点です。

  1. 得点の合計⇒平均⇒各偏差⇒各偏差平方⇒偏差平方の合計⇒偏差平方の合計÷データ数の順番で計算する

  2. 偏差=各得点平均

  3. 偏差平方は「偏差の2乗」という意味

  4. 標準偏差(偏差の標準)は分散(偏差平方の平均)の正の平方根

テストの得点の価値は、「偏差(各得点−平均)が、その集団の各値の標準的な平均からの距離(標準偏差)の何倍か」で考える。これを数式化すると、(各得点平均)÷ 標準偏差となり、これにより求まる値を標準化変量といい、この処理のことを標準化という。

この得点の価値(標準化変量)を10倍して50を足したものが偏差値(偏差の価値)です。
偏差値=(各得点平均)÷ 標準偏差 × 10 + 50

また、蛇足ですがこの得点の価値(標準化変量)を15倍して100を足したものがIQ(知能指数)です。
IQ =(各得点平均)÷ 標準偏差 × 15 + 100

※上記は、以下の動画(Try IT)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。

また、分散はもう一つ求め方があります。
分散 = 値の2乗の平均 − 値の平均の2
こちらは、「分 二平 平二」(ぶん にへい へいじ)で丸暗記します。上記、公式の形と意味を覚えておくと選択肢にそのまま出てくるケースがある(実際に過去問で出題されている)ので、覚えておくと良いでしょう。

※上記は、以下の動画(ただよび)で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。

7. グラフと表

統計検定3級に頻出している各種グラフの種類と特徴を以下にまとめます。

グラフとしては以下を押さえておきましょう。
・棒グラフ
   ┗を示す。
   ┗規模を示したいときに用いる。
・折れ線グラフ
   ┗を示す。
   ┗時間的推移を示したいときに用いる。
・円グラフ
   ┗構成割合を示す。
   ┗単独の集団内のデータを表すときに用いる。
・帯グラフ
   ┗構成割合を示す。
   ┗複数の集団のデータを比較するときに用いる。

表の種類としては以下を押さえておきましょう。
・度数分布表
   ┗階級ごとに度数を整理し、表にしたもの。
   ┗度数分布表をグラフ化したものがヒストグラム(詳細は第4章)。
・クロス集計表
   ┗複数の項目を組み合わせて集計した結果をまとめた表。

※クロス集計表については、以下の動画で分かりやすく解説されているので、こちらを流し見すると理解が深まると思います。

8. さいごに

最後までご覧いただきありがとうございました。本記事では計検定3級の出題範囲から、”コレだけは押さえておきたい用語と公式”をまとめました。私自身、勉強中の身で、9月上旬に受験予定です。勉強を進めていく過程で気づいた事などがあれば、別記事にてまとめていきたいと考えてます。また、ご指摘を受けたことがあれば適宜修正をしていきます。本内容を参考に対策の一助としていただけますと幸いです。


この記事が気に入ったらサポートをしてみませんか?