【新技術】データサイエンティストになるための3ステップ
こんにちは!
インテック 金融デジタルソリューション部のオオツカです!
今回の記事は、近年トレンドになっている「データサイエンティスト」を取りあげます。
1.データサイエンティストとは
早速ですが、"データサイエンティスト"とは一体何者なのでしょうか
上記「職業」のことを、データサイエンティストと呼んでいます。
わかりやすく説明すると、
大量データの加工
↓
大量データの分析
↓
分析結果をもとにお客様に提案
の作業を行う人たちです。
もっと具体的に何をするか知りたいという方は、
下記サイトをご参照ください!
2.データサイエンティストに対する需要
「令和3年版 情報通信白書」によると、日本国内で見ると、
昨年度よりデータの活用状況はよくなっていますが、
他国と比較した場合、日本はデータを
「既に積極的に活用している」又は「ある程度活用している」企業が少ないということがわかります。
つまり、日本でデータを活用できている企業は少なく、先進国と比べて遅れをとっていることが明確です。
また、「令和3年版 情報通信白書」に記載されている、パーソナルデータの取扱いや利活用についてのアンケート結果のグラフを参照すると、以下のような課題や障壁を感じている企業が、他国と比べて多いことがわかります。
・ビジネスにおける収集等データの利活用方法の欠如、費用対効果が不明瞭
・データを取り扱う(処理・分析等)人材の不足
上記のような障壁により、
データ分析に対してのニーズがあるにも関わらず、
データ分析の領域に手を出せていない企業が大半を占めている
ということがわかります。
この問題を解決する人材こそ、データサイエンティストなのです!!
3.データサイエンティストになるための取り組み
実際に弊社がデータサイエンティスト育成研修で実施した内容を、
順番に3つ紹介します!
STEP1:
データサイエンティスト100本ノック
(構造化データ加工編)
データサイエンティスト100本ノック(構造化データ加工編)とは
データサイエンティスト協会から2020年6月15日にGitHubで公開された、
データサイエンス初学者が構造化データの集計・加工を効率的に学べる学習環境のことです。
つまり、データ分析をするために必要なPython、もしくはR、SQLの文法を
一問一答形式で実際に手を動かして学習することができます。
データ分析に必要な文法を網羅しているため、
データサイエンス初学者にはぴったりの学習方法だと思います!!
ただ、その文法自体の基礎的な部分は知っている前提で記載されており、
文法を全く知らない状態で始めるとその文法の理解から進めていかなければならないため、多少は苦労するかと思います。
(現に自分はPythonを無知の状態で着手し、苦労していました…)
しかし身につけば100人力なので、苦労して実施する価値は十分あります!
自分はこの100本ノックを通して、
データ分析に用いるPythonの文法を身につける事ができました!
データサイエンティスト100本ノック(構造化データ加工編)
https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess
STEP2:
Kaggleチュートリアルの実施
Kaggleとは、企業や研究者がデータを投稿し、
世界中の統計家やデータ分析家がその最適モデルを競い合う予測モデリング及び分析手法関連プラットフォームのことです。
つまり、投稿されたデータをもとに、自分の考え・解析手法で分析し、
その予測結果の精度を競い合うものです。
(精度はランキング形式で表示されます!)
研修では、Kaggleのチュートリアルとして提供されている、
「タイタニック号の生存者予測」を実施しました。
(イメージしやすく、わかりやすかったです!)
着手する目的は、ランキングを競うことではなく、
自分で手を動かすことによって、
データ分析をする一連の流れ・やり方を身につけること
として取り組みました。
一からソースコードを記述しなければならないため難易度は高めですが、
「Kaggle タイタニック やり方」などで調べれば、どういう流れで取り組み、何から着手すれば良いのか記載されているサイトが複数あるため、
それを参考にして取り組むことで、初心者の方でも気軽に着手できます!
結果、Kaggleのチュートリアルを着手することで、
データ分析をする一連の流れの理解・解析手法の理解ができました。
Kaggle
https://www.kaggle.com/
STEP3:
Python3 エンジニア認定データ分析試験の学習
Python3エンジニア認定データ分析試験とは、
Pythonを使ったデータ分析の基礎や方法を問う試験です!
データ分析に関わる知識
「使用言語(Python)・数学の基礎・Pythonを用いての分析手法」
を学習することができます。
この試験の学習を進めることで、
単にデータ分析をするための言語(Python)を学習するだけでなく、
データ分析に対する考え方・数学的な考え・分析手法の理解ができます。
また、
STEP1:データサイエンティスト100本ノック(構造化データ加工編)
STEP2:Kaggleチュートリアルの実施
を実施した後に着手することで、よりスムーズに理解が早まるため、
STEP1,STEP2の後にSTEP3:Python3 エンジニア認定データ分析試験の学習
をすると良いと感じました。
Python3 エンジニア認定データ分析試験
https://www.pythonic-exam.com/exam/analyist
4.まとめ
いかがでしたでしょうか?
今回はデータサイエンティストについて解説しました。
今回記載した内容のような研修を当社で積極的に実施しており、
データについての有識者を多数育成中です!
(自分もそのうちの一人です!!)
データをうまく活用できていない…でもデータ活用行っていきたい…
そのお悩み、弊社に解決させてください!
最後までお読みいただきありがとうございました!
※ 記載されている会社名、製品名は、各社の登録商標または商標です。
■出典
①「令和3年版情報通信白書」(総務省)より作成https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r03/html/nd112480.html