見出し画像

【1】『データサイエンティスト養成講座 登竜門編』を読む(1)

さて、前回の記事でリストにあげた本を順に読んでいくことにする。まず最初は、『データサイエンティスト養成講座 登竜門編』

これまでにも何度か手にとってパラパラめくったことがある。本当に概要をさらってくれている本で「広く浅く紹介する」(ときにはツールの細かい説明もあるが)、という感じ。まずは最初の本なので、内容に沿って気になった点をメモしていく、という形式にしてみようか。

1章)データサイエンティストへの道標

データサイエンティスト協会による、「データサイエンテイストに求められるスキルセット」の定義というものがあるらしい。

1.ビジネス力:課題背景を理解した上で、ビジネス課題を整理し、解決する力
 ・「売上の増大」、「コストの削減」
 ・しかしその前にある課題を認識すること
2.データサイエンス力:情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
3.データエンジニアリング力:データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力

これは理解しやすい。多岐にわたる能力が求められている、と。自身の得意・不得意をこの定義で測るのはありだろう。

2章)データ分析環境構築ガイド

データ分析のフェーズを段階によって整理。
・データ収集
・データ保存
・データ分析・可視化

それぞれごとに、ツールを紹介。FluentdR、RDBやNoSQL、など。

3章)はじめてのシェル

ここはほぼ既知の内容なので読み飛ばし。

4章)データベース入門の入門

3章と同じく読み飛ばし。ただし、最後のETL処理(Extract:抽出、Transform:加工、Load:ロード)については、そうした作業が必要なことはもちろん理解しているが、このように整理されていて、かつそれ用のツールがあることは知らなかった。ここで紹介されているのはTalend。これ良さそう、と思って手元のmac(Mojave)にインストールしたが、なぜかjava関連のエラーで起動せず…。後で調べよう。

5章)RStudio/Jupyter最速攻略

RのIDEであるRStudioの紹介。R自体をこれまでほとんど触ったことがないので、RStudioをインストールしたが、この本にかかれていることではなく、すでに手元にある別の本『Rによるやさしい統計学』の第1章を参照に、ごく簡単な例から始めてみた。

Rに関しては、そもそも統計学方面の知識自体がまだない(恥ずかしながら、標本分散と不偏分散の違いもわかっていない)状態なので、上の本を読み進む段階になった時に、統計学そのものとRとを両方すすめていくことにしよう。

あとは、対話型実行環境としてのJupyter Notebookの紹介。ふむふむ、という感じ。ただし、写経(書いてあることをそのまま実行して試す)はしていない。写経の大事さは理解しているものの、そこで時間をとってしまうと先に進めない、ということもあるので。

ここまでで得たこと

この後の6章からは手を動かす機会が多くなり時間がかかりそうなので、記事としてはちょっと短いが、いったんここで区切ることにしよう。長い記事を書こう書こう、と思っているといつまでも公開できないので。

ここまでの内容は、あくまでさわり/概観といったところ。手もほとんど動かしていない。ただ、1章と2章にあった整理の仕方は役に立つだろう。今後は、手を動かす時間を確保しないといけないな、と実感。Talendを動かせる環境も構築しておこう。

この記事が気に入ったらサポートをしてみませんか?