シリーズ統計① 「統計検定準1級」試験対策と学習法
はじめに
統計検定準1級に合格しました。得点は70未満です(ギリセーフ!)。
この記事では、数学力の乏しい私が行った試験対策をお伝えするとともに、この対策方法の良し悪しを共有いたします。
統計検定に興味をお持ちの方、準1級を学習中の方などの参考になれば幸いです。
なお、文中の下線文字部分は参考サイトにリンクしています。適宜、飛んでみてください。
1.統計検定の概要
(1)統計検定とは
統計検定は統計に関する知識や活用力を評価する全国統一試験であり、一般財団法人 統計質保証推進協会が実施しています。
1級以外の検定は CBT方式 で随時実施されています。
試験制度の詳細は 統計検定のサイト をご覧ください。
(2)準1級の特徴
2級と比べると「応用的な統計学の諸手法」が追加されており、以下の点で難易度が高くなっています。
数式の解答を求める問題が多い。
高得点を獲得するには、微分、積分、行列などの数学の知識が欠かせない。
取り扱う統計手法の種類が多い。
(3)試験の概要
私が受験したときのことを例示します。
時間 90分
出題数 設問21、問題数26
合格得点 60点以上
解答形式
選択肢のラジオボタンを指定する
選択肢の番号を入力する
計算結果の値を入力する(2つ程度)
出題トピック
確率密度関数などを数式の形式で解答を求めるもの、レアなトピックの知識を求めるものが多い印象です。
目前にひろがる「見たこともない景色」に胸をときめかせ慄いて目を丸くしながら解答に取り組みました。
記憶に残っている出題トピックを紹介します。
事象と確率(簡単な確率計算)
各種分布・特性値(数式表記にて解答を求める設問が多い印象)
区間推定
サンプルサイズ設計
母平均の差の検定
クラスカル・ウォリス検定(レア)
マルコフ連鎖(推移確率・軽め)
回帰診断法(軽め)
ロジスティック回帰モデル(重め)
主成分分析(軽め)
クラスター分析・最近隣法
グラフィカルモデル/構造方程式(レア)
時系列解析(AR)
分割表(2題。適合度検定等、軽め)
モンテカルロ法(円周率)
2.学習方法
(1)学習前の知識の状況
私は文系寄りです。統計検定が要求するレベルの数学はほぼ知識なし。
統計検定3級からコツコツと暗記中心の知識集積を行ってきました。
確率・統計の知識、数学の知識がほとんど無い状態から学習を開始しました。微分・積分、指数・対数、ベクトル・行列など、無理です。
統計検定の3級・2級を取得済みです。
数式恐怖症があります。例えば、以下を見ると目を背けてしまいます。
指数の隊列
ベクトル、行列の太文字
ベクトル、行列の右上に飛んでるタケコプター(転置記号)
∫、dx、∂、lim、∞、φなどの記号(φは丸いタケコプター)
マークダウン数式:$${\int , dx, \partial, \lim, \infty, \varphi}$$
(2)学習の概要
まず、1ヶ月ほどかけて公式テキスト「統計学実践ワークブック」を読みました。
次に、1ヶ月ほどかけて公式問題集「統計検定準1級 公式問題集」を2周実施しました。公式問題集は6回分の過去問を取り扱っています。
ほぼ、これだけです。詳細な取り組み内容は後述いたします。
(3)参考書籍・参考サイト
①参考書籍
公式テキストの内容には理解できないことがたくさんあり、以下の参考書籍を集めてみました。
実のところ、完読できていませんが、公式テキストを読み進めるにつれて沸き立つ「不安」を和らげることができました。
1は赤本、2は緑本、3は竹村本、と略称・愛称で呼ばれている統計学習界隈では有名な書籍です。
1の統計学入門は半分くらい流し読みをしました。
「え、それってそういうことなの!?」という気づき(というか自明なこと)がたくさんあって、「統計を学ぶ面白さ」を教えてくれました。
2級のときに出会いたかったです。
4の数学入門書は最近再販されました。
極限、微分公式、部分積分など、数学が苦手な私にとって「難しい数式の処方箋」の役目を担っていただきました。
(でも、内容は難しくて完全な理解の到達には至っておりません・・・)
②参考サイト
公式問題集の問題の解き方について、以下の2つのサイトに大変お世話になりました。
なぜならば「公式問題集の問題解説文章を理解すること」は私にとって無理難題だったのです。淡白でそっけないんですもの。。。
このサイトによる「親切で詳細な」公式問題集の解答の解説が無かったら、解けない問題だらけで途方に暮れていたことでしょう。
特に公式問題集の数式展開について、途中を省かず詳細に書いて頂いたことが助けになりました。
ありがとうございました。
1.あつまれ統計の森 2018年6月~2021年6月
2.Data Arts 2015年6月~2017年6月
また、統計検定の先輩方の学習方法をまとめているサイトがあります。
学習期間、学習方法、参考書籍、その他、先輩のご経験を参考にさせていただきました。
ありがとうございました。
「統計検定の受験体験記へのリンク集——どんな参考書で統計を勉強しているか」 @ Colorless Green Ideas
(4)学習の詳細
①公式テキストを読む
公式テキストは全32章があり、各章はトピックの説明、トピックを補足する計算例、章末の例題で構成されています。
約1ヶ月かけて、1日平均1章を目標にして読み、計算例、例題に取り組みました。
が、しかし・・・。
トピックの説明が少なく、しかも数式が多く、私にはとても難解なものでした。式の展開はかなり省略されています。
また、計算例や例題の解答・解説はとてもシンプルな構成になっていて、深淵にたどり着くことはほぼ不可能でした。
言葉や数式に引っ掛かっては、ネットで調べて、悩んで、理解してor諦めて、を繰り返しましたが、ネット情報を統合しても理解が及ばないことが多数あり、結果として、公式テキストの読み込みによる知識の定着はほぼできず、流し読みのようになってしまいました。
②公式問題集を解く
全6回の過去問を2周解きました。
次の2点において、この過去問と向き合うことが、最も試験対策に効果があったのだと考えています。
問題の主旨を素早く理解すること
過去問はPBTと呼ばれる、紙で出題・解答する時代のものです。
各問にはストーリーがあり、統計の事例という点でとても興味深い内容となっています。
その分、解答には直結しない内容も記載されており、冗長な文章になっています。
試験では1問あたり3~4分ほどしか費やすことができず、効率的に答案を構成する必要があります。
過去問を通読することによって、出題意図を把握して解答の道筋をサッと判断できる訓練になりました。計算を素早く行うこと
試験では、公式や式の展開を思い出しながら、計算式を組み立てて、かつ、電卓で計算することが必要です。
問題を見て、計算式を書いて、電卓を連打する。このルーチンを実際に頭と手を動かして体に覚えさせたことが、試験会場でとても役に立ちました。
ところで、私は少し特殊な方法を採ったので、反省を込めながら、説明します。
(5)公式問題集の活用の仕方
①写経
公式テキストの読み込みによる知識集積ができなかったため、公式問題集の解答を書き取りすることによってトピックの理解につなげる「写経」に取り組みました。
なお、問題の範囲は「選択問題及び部分記述問題」のみを実施しました。
時間の都合上、「論述問題」には取り組まないことにしました。実は論述問題には良問が多いので、心と時間に余裕がある場合には論述問題にチャレンジするのが良いと思います。(★この点は反省)
公式テキストは2021年6月、2019年6月~2015年6月の順に並んでいることから、先頭の2021年6月の写経から始めました。(★この点は反省)
問題を1題読み、問題集の解答例を読み、ノートに解答を書き写す。
ノートを見て、公式テキストを見て、確率・統計のコツを掴む。
このサイクルを2021年6月の12問に適用して繰り返すのです。
失敗だったと思うのが、2021年6月は最も難題が多かったということ。
最初の時点で最も難しい問題に取り組むことは正直、きつかったです。
(★反省点)2015年6月から古い順に実施するのが良いと思いました。
また、公式問題集の解答はとてもシンプルであり、計算過程の記載がない、いきなり難しい言葉がでてくるなど、なかなか手ごわい内容になっています。
そこで、先述した参考サイトを見て、計算過程やトピックのポイントを把握し、参考サイトの解答例を写経する方向に転換しました。
ただし、参考サイトも一定レベルの数学知識を前提にした記載になっているので、平易な説明を求めてネットの荒波に揉まれてきました。
魔法の言葉(検索ワード)は 「主成分分析 わかりやすい」です。
こうして、ノートには私の理解できるレベル、つまり超事細かい解答案が蓄積できました。しかし、未だに「数式の展開が分からない」箇所がいくつも残っています。
写経と並行して、トピックに普遍的な内容を取り出して、ノートにまとめることをしました。
例えば、以下のトピックを個別にまとめました。
マルコフ連鎖
ブラウン運動
主成分分析
因子分析
時系列解析
ベイズ法
あわせて、よく使う数学の論点をまとめました。
(まとめただけで、正しく使えていないのですが・・・)
指数・対数の公式
微分・積分の公式(特に、指数・対数)
例えば、最尤推定量のイメージを掴むにあたり、対数尤度関数の1階微分=0を解く、など部分積分法・置換積分法
連続型分布の期待値を積分して求める、など行列の固有値と固有ベクトル
これは、マルコフ連鎖の定常分布、主成分分析の対策です。
②模試スタイルの写経
2021年6月、2019年6月、2018年6月までの写経を終えて、なんとなく試験問題に対するアレルギーが薄れてきたので、2017年6月分から2015年6月までの3回分は、試験と同じように90分間で問題を解く「模試」スタイルに取り組みました。
時間いっぱい問題に取り組み、採点をして、写経をする。
写経は実施しました。模試2周目以降で読み返しができるよう、ノートにまとめたのです。
ただし理解済みのトピックの写経を省略するといった時短も取り入れました。
この段階で、過去6回分のノートがまとまりました。
ちなみに、この時点で3回分の模試の採点結果は65%前後。
初めて取り組む問題で合格水準すれすれ。
学習レベルとしては未熟であり、試験の合否は際どいものだと言えるでしょう。
また、この実力は試験の結果ともリンクする顛末になりました。
6回分解き終えたところで、自分の得意・不得意を見定めて、各回の問題1つ1つに難易度を「易・中・難」の3レベルに層別して、易は「絶対正解する」、中・難は「解答を諦める」方針にしました。
中・難を付けた問題は、主に以下のものです。
微分・積分・行列が絡んで、計算する実力が無いもの
不得意トピックであり理解に時間がかかり過ぎるため切り捨てたもの
(ベイズなど)
ちなみに各回の「絶対正解する」の割合(目標得点率)は以下のとおりです。
2021年6月 60%
2019年6月 68%
2018年6月 88%
2017年6月 76%
2016年6月 80%
2015年6月 75%
③模試(2周目)
全6回を模試形式で実施しました。
不正解の問題、および、正解したけど解き方の理解が誤っている問題に対して、写経&追試を行い、誤りの撲滅に務めました。
初歩的な計算ミスをすることが多かったので、計算を何度も繰り返して、体に覚えさせました。
また、時間配分に注意して取り組んだことが良い効果を生みました。
毎回、80分くらいで一巡でき、見直し時間を確保できました。
実は、過去試験の問題数は33~35問あり、一方で試験では26問が出題されたので、かなり時間に余裕をもって(=心的余裕をもって)、試験に取り組むことができました。
なお、この2周目で目標得点率に達したのは2回分です。
実力値は本試験合格レベルすれすれの状態です。
試験を見送ることも考えましたが、ひとまずやってみようの精神で、試験に向かいました。
(6)学習方法のまとめ
過去問題集の解読と答案作成を重点的に取り組み、過去問でわからない単語・手法・数式は直ちにWebサイトを検索して「わかりやすい」情報を探索しました。
こうしてトピックの理解を「ほふく前進」で進めるとともに、実際の試験と同じように時間を計測して取り組むことによって、本試験での時間配分・答案作成テクニックを身につけることに邁進しました。公式テキストと公式問題集の記載内容では理解できないことが多いため、統計学に関する参考書籍と参考サイトの活用が大事です。
反省点は、本質的なトピックの理解よりも、受験テクニックを磨くことに注力してしまったことです。
今後、さらなる確率・統計の学習を進めるに当たって、数学的な基礎を押さえた本質理解が大きな課題になりそうです(なります)。
3.試験
(1)試験までの手順
準1級の試験は、CBTと呼ばれる方式です。
全国各地の試験会場に赴いて、パソコン画面で出題を読み、解答をします。
大まかな手順は以下のとおりです。
①試験会場を予約する
大学受験のような特定日時に一斉に試験をするものでは無いです。
統計検定を取り扱っている試験会場(会社)をネットで探して、試験日時を予約します。
以下のサイトで統計検定の試験会場を検索できます。
https://cbt.odyssey-com.co.jp/place.html
②オデッセイコミュニケーションズに登録する
試験運営はオデッセイコミュニケーションズが代行しています。
試験当日に、オデッセイコミュニケーションズID・パスワードでログインして試験を受けることになります。
したがって、試験前にオデッセイコミュニケーションズにユーザー登録する必要があります。ユーザー登録は無料です。
③受験料を支払う
試験会場(会社)ごとに決済方法が異なりますので、その決済方法に従って、受験料を支払います。
この記事の作成時点では、準1級の受験料は、一般:8,000円、学割:6,000円です。
(2)試験前に準備すること
試験会場の場所を把握して交通アクセスを計画
会場に持っていくモノの用意
身分証明書(運転免許証など)
電卓(関数電卓はNG)
オデッセイコミュニケーションズのIDとパスワード
(3)試験当日の流れ
概ね以下の流れとなります。
①受付
氏名・受験科目・身分証明書の確認をして、指定された席に着きます。
②オデッセイコミュニケーションズのID・パスワードの確認
会場によっては、紙にメモをして持ち込む場合があります。
③荷物の片付け
席に持ち込みできるのは、電卓とID・パスワードのメモ紙のみです。
④試験の受け方の説明
会場スタッフが試験の注意事項を連絡してくれます。
なお、試験会場では統計検定以外の試験(IT関連試験等)を同時に行っています。試験の説明や終了時刻などが異なりますので、ご留意ください。
⑤試験開始
⑥試験終了
⑦片付け、結果受領
(4)席の備品・パソコンの使い方
席には、パソコンが設置され、試験のしおり、解答用メモシート2枚、水性ペン、標準正規分布表など付表シート1枚が配布されています。
また、会場スタッフを呼び出すための機器が置かれている場合があります。
席には持ち込み電卓を置けます。
解答用メモシートはラミネート加工されたA4ほどの樹脂シートです。
試験時の手書きメモは、このメモシートに水性ペンで書きます。
メモシートをメモが埋め尽くしてしまっても大丈夫です。
試験中に会場スタッフを呼んで、メモシートを交換して貰えます。
この際、使用済みシートは回収されますので、注意が必要です。
席についたら、机のスペースに応じて、キーボード、マウス、メモシート、付表シート、電卓の配置を整えましょう。
位置取りは快適に試験に取り組むためにかなり重要だったりします。
私は、メモシートに計算式を書いて電卓を連打する一連の流れをしやすくするセッティングを心がけました。
パソコンは概ね、次のように使います。
試験前には、会場スタッフの案内に従って、オデッセイコミュニケーションズのIDでログインして、氏名等の確認と受験科目の選択をします。
試験中は、設問ごとに問題が画面表示されます。
画面中に解答を入力するエリアがありますので、問題を解いて、パソコンの解答エリアに入力します。
入力方式は、ラジオボタン、または、テキストボックスです。
選択肢から解答を選ぶものは、ラジオボタンか、番号をテキスト入力します。
選択肢が用意されておらず、計算結果の数値を入力するものは、その数値をテキスト入力します。
設問ごとに「あとで見返す」チェックができます。チェックをしておくと、便利です。
前の問題に戻るには、戻るボタン、または、一覧画面を出してから設問番号を指定する方法があります。
試験が終わったら、終了ボタンを押します。
パソコンにアンケートが表示されます。アンケートにも回答しましょう。
アンケートが終わるとパソコンに試験結果(合否、得点など)が表示されます。
試験後、すぐに合否が分かるのです!CBT方式の特徴です。
4.試験実施の所感
私の受験所感をつらつら書きます。
(1)初見の問題だらけでプチパニックを起こした
過去問特化型学習は、過去問オーバーフィッティング のリスクがあります。
私はもろにリスクが現実化してしまいました。
6割くらいは、問題自体の意味がわからないもの、学習から目を背けてきたトピック、難解な数式を求めるもの です。
過去問の出題傾向とCBT対応後の出題傾向が変わったのかもしれません。
過去問は1つの設問に2~3の小問が設定されており、設問を通底する出題方針の流れみたいなものがあり、文章から解答の道筋を読み取れる可能性がありました。
しかし、CBT対応後は、1つの設問に1つの小問のケースが増えました。小問1つごとに出題の意図を読み解く必要があり、次々と脳内をリセットして新しい問題を読み解く作業を強いられます。頭の切り替えスピードを要求するスタイルになったのだと思います。
なお、過去問や公式テキストの例題に類似する見覚えのある問題は1、2題くらいでほぼ無かったです。(内容は書き換えられていましたが、ハンバーガーショップのばらつきの問題が出題されました。)
フリーズしていても始まらないので、コツコツ問題文を読み、①問題の意図の把握、②解答可能か不能かの判別を行って、解答を進めました。
解答不能な問題については、過去問のうち「解答を諦める」トピックを決めていたので、試験中の不能の判別分析は簡単に行えました。
(2)問題文または解答選択肢にヒントがある
初見ではあるものの、問題文と解答選択肢を落ち着いて読むと、解答への道筋が書かれていて、過去問で培った問題・解答の関連から出題の意図を類推して読み取れるものがありました。
また、選択肢の中には、例えば「1:Aは◯・Bは△、2:Aは◯・Bは▢、3:Aは△・Bは▲」のA◯のように、偏りの傾向が見られるものがあります。
選択肢の絞り込みの際には参考にできそうです。
(3)数式で答えるのは難しい
母数の推定結果(最尤推定量等)や確率密度関数の算出結果を「数式で表す」場合、数式恐怖症が発症して、目を背けてしまいました。
今回は潔く諦めました。(適当に選択肢を選んで解答)
1級やAI関連の課題を取り組む際には大きな障害になることは間違いないでしょう。
今後は、数学的なアプローチをコツコツと習得しようと思います。
(4)2級の延長で解答できるトピックは確実に押さえる
2級の延長的な以下のトピックは、準1級の学習が進みました。知識の土台があったので学習しやすかったのです。
簡単な計算の出題パターンが多いので、確実に正解を狙えるゾーンです。
事象と確率、特性値(期待値、分散・共分散、標準偏差、相関係数)
主な確率分布の確率(密度)関数、期待値、分散の公式
二項分布の確率計算
区間推定・検定(ピアソンのカイ二乗検定を含む)
回帰分析
分散分析表
(5)新しいトピックに興味を持つ
自分の性格にあった学習方法とトピック探しをするのもいいかもしれません。
私の場合、簡単な公式を用いた計算を伴うトピック、グラフや図などの視覚的なイメージが特徴になるトピックは、視覚的に記憶を定着でき、また、クイズ感覚で楽しく学習できたので、割りと覚えやすかったです。
特に、公式テキストの行間を補うために、ネットで「わかりやすい」サイトを探して、図や絵などの直感的な説明を咀嚼して、自分の理解をノートにまとめておいたのが、試験で役に立ちました。
例えば、以下のトピックです。
主成分分析の固有値・固有ベクトルの意味、寄与率・主成分負荷量
ただし、固有値・固有ベクトルの計算は諦めました。因子分析
主成分分析と対比しながら覚えましたバリマックス!
ちなみに因子スコアの意味合いの理解に時間がかかりました。マルコフ連鎖
傘を持ち運ぶ例題レベルの計算です。クラスター分析
最近隣法・最遠隣法・K-means法の分類計算など手を動かしてみます。時系列解析
AR(1)・MA(1)について、自己共分散のイメージ、コレログラム・偏自己相関係数グラフの特徴を覚えるのと、ダービン・ワトソン比の近似値計算です。モデル選択
AIC、BICの簡単な計算です。
PythonやRが得意な人にとっては、数字やグラフの動きをプログラムを動かして確認しながら理解を促進するような学習方法がいいのではないかと思います。
(6)時間に余裕を持ち、残り時間で見直しをする
70分程で全問の解答を終えて、残りの20分間で解答を見直ししました。
模試形式の学習で体得した試験の時間感覚が活きました。
見直しに際しては、分かった問題の検算・点検を実施しました。
分からない問題は時間をかけても解答に到達できないですから。
そして誤りを1問発見できました!(信頼区間の幅の計算で2倍し忘れ)
もしかするとこの1問の正解が合否の分かれ目になったかもしれません。
全問解答で安心せず、見直し・点検を行うことは大切です。
(7)合否判定表示のドキドキ
「合格」の文字が目に飛び込んできた時、思わず声をあげてしまいました。
模試の学習経験では「初見問題の正答率が65%程度」であったこと、試験には理解できていないトピックが多く出題されたことから、不合格となっても仕方が無いと諦めかけていたので、まさかの事態に驚きました。
と同時に、もう準1級の試験対策をしなくてもいい!という謎の解放感に包まれました。
(8)過去問と向き合ったことの是非
過去問の正答率は本試験の正答率に近似するのかもしれません。
過去問だけでは出題傾向に沿った学習はできないかもしれませんが、しかし、過去問を解いて自分の実力値を測ることは大切なのだと思います。
また、どなたかが書かれたネット投稿に「公式テキストの例題を6割くらい解けることが合格ライン」(との記載だったような・・・)という情報もあります(あったような気がします)。6割という数字の実感から、公式テキストの例題もしっかり解けるようにすることが大切なのだと思います。私は公式テキストの例題をあまり解かなかったので、ちょっぴり反省です。
ところで、過去問に集中するという試験対策に偏った学習は、合格する手段としては正解かもしれません。しかし、統計を理解する観点では、過去問だけでは確率・分布・統計的手法の深い理解に到達することが難しいことも確かです。
公式テキスト+参考図書で基礎力を蓄積することの大切さを改めて実感しています。
おわりに
準1級の合格を目指した動機を思い出したので書きます。
機械学習・AI分野の基礎知識を得てPythonによる実装をできるようになりたい。これが始まりです。
どう言うわけか、機械学習と一緒に統計も学んでおいたほうがいいのではないかという思考がやってきて、せっかくなら目標にしやすい検定にトライしてみようという方向に流されて、いつの間にか、統計検定の合格に注力することになりました。
実は準1級の出題範囲には以下のような機械学習にちなんだトピックが含まれています。
回帰分析(ロジスティック回帰 など)
正則化(リッジ回帰、Lasso回帰、Elastic-Net、Fused lasso)
サポートベクターマシン(SVM)
自己符号化器(autoencoder)
交差検証法(k-Fold Cross Validation など)
試験合格という分かりやすい目標が学習の強い動機づけになった一方で、基礎を築いて実践力鍛錬の礎とする本来の主旨からずれている感じが否めません。
ひとまず小さな目標を達成したので、次の目標を目指すことにします。
今後しばらくは、機械学習のPython実装の訓練に力点を移していきます。
そのうち、機械学習ネタをブログにする日が来るかもしれません。
はたまた、統計検定1級を目指すブログになるかもしれません。
いずれにしても、数学との闘いは続きそうです(泣)
ここまで長い文章にお付き合いいただきまして、誠にありがとうございます。
最後にひとこと言わせてください。
「ビバ☆統計!」
おわり