統計検定準一級 受験記【機械学習系激ムズ資格?】

今日は統計検定 準一級の話です


TL; DR

  • 統計検定 準一級は機械学習系の資格だよ

  • 3か月くらい勉強して、統計検定準一級に合格したよ

    • 体感のつらさはAWS SAAくらい。応用情報よりは簡単(個人差あり)

    • 他資格も並行してたから実質1.5~2か月くらい(100時間くらい?)

  • 次のような勉強をしたよ

    • ハンドブックの各章の内容をA4 1~3枚にまとめた

    • Pythonで各章の解析の作例をつくった

筆者のスペック

・     メーカ~ITの合間系のアラサー研究職(最近はシステム設計)
・     理系大学院出身(早慶上理のどこか)
・     数学得意(物理系出身)
・     機械学習の業務経験あり

経過

2023年11月頃から統計検定二級の勉強を開始

2023年12月に時間を見つけて統計検定二級を受けるも1点足りずに落ちる
電卓が使えない筆者は永遠に統計検定二級にうからない気がしたので準一級に切り替え

2024年1月末に統計検定準一級を受験し、合格

受験のきっかけ

 10月に統計検定二級と準一級の過去問を読んで、これならいけそうと思って勉強を始めました。
 試験範囲でいうと
・ 二級: 統計的検定 (例: 信頼区間やt検定)
・ 準一級: 統計的検定+古典的機械学習 (例: SVM, ridge, 時系列データ解析)です。
 もともと筆者は業務でも機械学習(深層学習に限らず)を使っていたので、その分のアドバンテージがありました。その一方、それらが立脚している古典的な統計学への知識・経験は浅く、統計検定二級から勉強しようと思ったわけです。

二級不合格体験記

10月初旬に二級・準一級それぞれ教本と過去問を読み始めました。

まずは統計検定二級の範囲を11月で終わらせて12月中旬に受けました。勉強も基本的には週末だけ二時間ずつ。。
その結果が不合格(59点)でした。

この時わかったのは次の二つです:

  • 統計検定二級はかなり細かい部分まで出題する

  • 普通の電卓を正確かつ高速にたたくスキルが求められる

⇒結論: 戦略的撤退

結果的に撤退は結果的に正解だったと思います。
次のような特性のある私のような人は撤退しましょう笑
・普通の電卓が子供のころから使えない
・細かいことが全く覚えられない (だから理系に進んだ)

準一級合格体験記

他にも理由があったのですが、準一級に照準を絞ることにしました。
ワークブックを真剣に読み始めたのも12月中旬からです。

皆さんがおっしゃっているように、準一級の範囲は莫大です。
効率よく覚えるために、まずは、教本の各単元をA4で1~3枚にまとめることにしました。
12月末直前くらいに大体一通り単元がまとめ終わりました。

しかし、、

なぜか全く覚えられない単元たち。。

内容がすんなりと頭に入ってくる単元とそうではない単元が明確に分かれていました(SVMやlasso/ridgeはすぐに頭に入る。生存時間解析はなんだか苦手)。

ここで困っていたのは、「内容が覚えられないだけで、書いている内容は数式を含めて理解できる」という点です。
様々な意見がありますが、私個人で言えば、あの教本はよくできている、他の本を参照せずとも言いたいことは(少なくとも私には)わかりやすいとさえ思っていたので、ほとほと困っていました。。

そして気が付く

あ、業務で少しでも使ったことがある内容はすぐに頭に入るのに、そうではないものが苦手だと。

では、何が覚えやすい・覚えづらいの差を生んでいるのか。。
私は次の二つが原因と仮説だてました:
・観測データが、解析の結果、どのようなデータに変換されるのかの理解があいまい
・理解を図解できていない

まず、図としても単元を理解をするためにまとめていたA4のチートシートに図を書き入れることにしました。
図といっても挿絵からグラフまで様々です。
ワークブックはあまりそうした絵がなく、それも理解を遠ざけているような気がしました。

観測データがどのようなデータに変換されるのか、についてはトイモデルで簡単なデータ解析をして作例を作ることにしました。
Python & scikit-learn, statsmodelsを使えば比較的すぐに作例を作れるはずです。

この二つの取り組みが結果的にうまくいって、大体どの分野も頭に入ってくるようになりました。
なんとか、1月上旬ごろには教本を一通り終えられました。

そこからはひたすら過去問&章末問題です。基本的には午前問題を集中的に解きました。
午後問題は問題文を読んで頭の中で回答を再構成する訓練に使いました。

実際に出題された問題について詳しくは書けないですが、教本を十分に理解していれば合格点には到達できると思います。

業務に役立ちそうか

一応業務で機械学習しているクチではあるのですが、これについてはなんとも…。とりあえず、ワークブックを精読できたことは役立つと思います。

ただ、過去問はじめ試験そのものの内容にはちょっと疑問があります。
私自身は「PythonやRで手を動かせないと理解できたとは言えない」というような実務至上主義者ではないですが、出題される問題が大学入試っぽいというのか、ちょっと統計学の知識を問うのとはちょっと性格が違う印象を持っています。
一言でいうと、旧帝大や早慶上理クラスの物理・数学系卒はあまり統計学を理解していなくても合格できるのでは…という感じです。

ですが、あのハンドブックを精読できるスキルやそのためにする努力は業務でもかなり役立つと思います。
研究部門だと「論文だけしか参考にできるものがない!論文を読んでアルゴリズムをスクラッチ開発しよう!」というケースは研究部門だとそれなりにあり得ます。
技術ブログやGitHubの実装例がない場合、統計学や確率論の知識を開発の道しるべに実装することになりますしね。

これまではPRMLがそうしたケースの参考書籍に挙げられることが多かったのですが、あれはどう考えても初学者向きではないと思います。
一方、ハンドブックは網羅性も高く、それなりに内容かみ砕いて書いているので、そこに至る一歩手前の本として勧められると思います。

(念のため、PMMLとはこれのことです)

「機械学習に興味はあるが配属部署の業務がそれそのものではない。何から勉強すればわからない!!」となっている方々(特に新卒~入社3年目くらい)がアルゴリズムや数理的背景も含めてそれらを理解したいと願っているなら、統計検定準一級は比較的良い教材だと思います。

おまけ

気が向いたら、勉強記録の諸々の記事も投稿しようかと思っています

この記事が気に入ったらサポートをしてみませんか?