見出し画像

データサイエンティスト検定に受かった話

※この記事は約3000文字です。約8分で読めます。

結論としては、凡そ40時間程度の勉強時間で以下の通りで合格しました。

私のスペックは、以下の通りです。
受験までの体験談を纏めておりますので、これから受験を考えている方はご参考になれば幸いです。

1.勉強に至る経緯

最近AI関連の話題が仕事で増えてきた事もあり、以前取得したG検定を復習していたのですが、色々調べ物をしていた所、Di-LiteのDX推進パスポートを知り、ITパスとG検定は持っているので、折角なら受験してみようと思いました。

勉強した感想から言うと、統計検定、G検定辺りの話を上手く取り込んでいるので、AIやデータサイエンスで最低限必要な知識を得るのにはちょうど良いと感じました。

2.全体像を掴む

DS検定については以下を参照ください。

かなり試験範囲が広く、以下で説明する参考書を理解しているだけでは合格は厳しいと思います。
(かつ、そもそも参考書の理解自体が素養がないと難しい)
従って、先に統計検定、G検定辺りを取得した後に勉強すると良いと思います。
DS検定自体まだ実施年数が浅いので、これを取得する為に色々勉強すると言うよりは、統計検定、G検定辺りを勉強した追加で受ける、というスタンスが良いと思います。

以下に主要な参考書を紹介します。

1トピック1ページ形式で必要な知識が網羅出来ます。
解説は薄いので、例えば理系であったり、G検定であったり、統計検定を持っているかそれ相応の知識が無いと理解はできません。ですので、最後のCheckや抜け漏れ知識を補完する形で使うと良いと思います。またWeb限定の問題集は最新の傾向が反映されているので、おすすめです。

こちらは、上記と異なり、1トピック複数ページ形式で必要最低限の知識が網羅出来ます。
代わりにこれだけだと範囲が狭いので、問題集や別の公式本ないしはWebを参考に知識を積んだようが良いです。データサイエンスの基礎知識が無くても分かるように細かく説明されているので、初学者でも読めると思います。

3.試験対策

公式テキストのみですと演習が足りないので、以下を合わせて学習します。

問題集が少ない試験なので、これをほぼ100%回答できる様にするのは必須になります。解説もそこそこ詳しいので、やり込めば合格に近づきます。

DS検定は問題集が少ないので、こちらも合わせて学習します。
買い切りのアプリになります。隙間時間でも勉強できるので、オススメです。

これらを2週程度実施し、出来ない問題を減らす事が大事です。
また、用語に対する問いも説明を選ばせるものが多かったり、微妙な文言の違いを問いたりするので、
ある程度正確に覚える方が良いです。
例えば私は以下の様な形で纏めてました。

- [ ] 画像分析での正規化:画像の各画素が持つ値を0-1(0-255の)の範囲に収まる値にすることで、効率を高める為に画像に対して施す
- [ ] 画像分析での標本化:正方形の格子状に区切る作業である
- [ ] カテゴライズ:量的変数をカテゴリにグループ化し、質的変数に変換すること
- [ ] ビン化:量的変数を等間隔の区間で分割すること
- [ ] ボロノイ図:複数のポイント(母点)が配置されている時、その平面内の点を、どの点に最も近いかによって分割してできる図を呼ぶ。
- [ ] CNN:画像や時系列データの重要な特徴を明らかにして学習できるよう、最適なアーキテクチャを提供する
- [ ] RNN:過去の情報を利用して現在および将来の入力に対するネットワークの性能を向上させる、ディープラーニングの構造で文書系に使われる
- [ ] ランダムフォレスト:「決定木とアンサンブル学習(バギング)の手法を組み合わせたアルゴリズムで、機械学習の分類や回帰で用いる
- [ ] アンサンブル学習:複数の機械学習モデルを組み合わせ高い精度の回答を得る手法で、バギングやブースティング、スタッキングなどがある
- [ ] バギング:ランダムに複数の学習データを選び、そのデータを使って学習器を作成、結果を全て集め、最終決定を回帰は平均値を、分類の場合は多数決で実施する
- [ ] ブースティング:過去の学習の誤差・誤りに注目し、その誤差を修正することで、精度の向上を図る
- [ ] スタッキング:ランダムフォレストやブースティングなどを様々な計算法を使い、多くのモデルを用意、次に最終的に一つの学習器を作成する
- [ ] ストップワード:自然言語処理にあたって、一般的である等の理由で、処理対象外とする単語(「at」「of」などの前置詞など)のこと
- [ ] 形態素解析:自然言語処理(NLP)の一部で、自然言語で書かれた文を言語上で意味を持つ最小単位(=形態素)に分け、それぞれの品詞や変化などを判別すること
- [ ] 係り受け解析:文節同士にある関係を文法ルールや機械学習を取り入れたアルゴリズムに基づいて解析すること
- [ ] 固有表現抽出:テキストから人名、組織名、場所、日付などの固有名詞を特定し、分類する技術
- [ ] GLUE:自然言語のベンチマークで、文法や含意関係等を正しく推定できるかを測る。固有表現抽出は含まれない
- [ ] SCP:SSHによって安全にファイル転送を行うプロトコル
- [ ] 匿名加工情報:特定の個人を識別することができないように個人情報を加工し、当該個人情報を復元できないようにした情報で、たとえば購入履歴など。個人情報ではないが個人識別情報を削除しただけではだめで公開には本人の承諾が必要
- [ ] 個人識別情報:名前などの個人を特定または特定可能にする情報で、誰の音声かが識別できる音声録音情報も含む
- [ ] 仮名加工情報:他の情報と照らし合わさない限り、特定の個人を識別できないように、個人情報を加工して得られる個人に関する情報のこと。例えば年齢をXX代にする
- [ ] 要配慮個人情報:不当な差別や偏見その他の不利益が生じないようにその取扱いに特に配慮を要するもので、人種、信条、社会的身分、病歴など
- [ ] セマンティックセグメンテーション:画像のピクセル(画素)1つひとつに対してラベル付けしていく手法。深層学習を用いたU-netなどがある
- [ ] データオーグメンテーション:学習データ(訓練データ)の画像に対して平行移動、拡大縮小、回転、ノイズの付与などの処理を加えることで、データ数を人為的に水増しするテクニック

4.受験

受験はCBTです。当日は他のCBTとあまり変わりはありません。電卓とか必要な持ち物は特にありません。時間は余裕があるはずなので、焦らずじっくりと解きましょう。

5.結果

受験が終了するとすぐに結果が出ます。合否ではなく、正答率のみですが、凡そ80%の正答率で合格なので、大体の結果は分かるかと。
合否は翌月の月末にWebで公開されます。合格するとデジタルバッチが送られるので、私はそれで合格を知りました。
そこまでメジャーな試験ではない&書籍が少ないので勉強しづらいのですが、上記の通り取り組めば合格できるのではないかなと思います。

皆様も興味があれば、その時が受講するタイミングだと思いますので、是非トライしてみては如何でしょうか。
ここまで読んで頂き、有難う御座いました!

読んで頂き、有難う御座います! サポート頂ける様でしたら、有用な情報発信に向けての費用(書籍購入等)として利用させて頂きます!