データサイエンス入門のための学習書籍・コンテンツ(2020年4月版)
みなさん、こんにちは。
参加者160人を超えるデータサイエンティスト特化のオンラインコミュニティ「データラーニングギルド」の代表をしております、村上(通称みどりの人)です。
その中で、「おススメの書籍って何ですか?」という質問を受けることが多いので、ありがちではありますが、「データサイエンティストとしてこの辺を勉強しておけば良いのではないか?」という書籍を一覧にしたものを作成しました。
自分が読んで良かった本に不足している領域の書籍を加えて作成した内容となっています。自分がどちらかというと受託のコンサルに寄ったスキルセットになっているので、コンサル寄りのデータサイエンティストになるためのロードマップと思って頂ければと思います。
多分普通にやると3年くらい、早い人でも1年くらいはかかると思いますが、ここに書いてある内容を理解して貰えれば実務的には十分だよなぁという温度感で作成しています。
レベル感としては「どんなデータ分析プロジェクトでも大体役に立つ」という所を目標として作成していますので、これらを学んだあとに具体的な統計手法だったりドメイン周りの知識を獲得して行って頂ければ良いのではと思います。
かなり幅広い領域でコンテンツをピックアップしましたので、既にデータサイエンティストとして活躍する方に関しても、何かしら新しい発見をしてもらえると嬉しいです。
データサイエンスに関しての全体感を理解する
まず、学習の第一歩として、データ分析に関する全体像を理解するためにおススメの書籍を4冊ピックアップしました。
データサイエンスがどういった使われ方をするのか、どういった技術が必要なのか、という所に関してまとまった書籍となっていますので、こちらの書籍を読んで頂ければ、この後の具体的な学習内容が何に使われるのか、どのようなことに繋がるのかを理解しやすくなるかと思います。
統計学が最強の学問である
まず一冊目は2014年のビジネス書大賞を受賞したこの一冊。日本のデータ分析ブームがこの本から始まったと言っても過言ではないくらいの書籍です。
なぜ統計学が重要なのか、統計学がどのように使われるのかといったことが具体的な事例と共に説明されていますので、統計学の全体感を掴むにはおススメの書籍ではないかと思います。
これからのデータサイエンスデータサイエンスビジネス
日本におけるデータサイエンスがどのような歴史で発展してきたのか、ビジネスにおいてのデータ分析の特徴、一般的なシステム開発との違いに始まり、よく使われる分析手法や、データサイエンスを活用して行くためのポイントを紹介した書籍です。
2019年時点でのデータサイエンスがどういった状況で、これからどうなって行くのかといった、「データサイエンス」を一歩引いて俯瞰して見たり、データサイエンスの全体像を掴んだりするのにおススメです。
データサイエンティスト養成読本
具体的に、データサイエンスを上手くビジネスに適用して適用している方たちが具体的な「How」について執筆したムック本です。
どのようにしたらデータ分析のプロジェクト、組織立ち上げが上手く行くのか。どのようにしたらデータ分析を文化と浸透させることができるのか、どのようにデータサイエンスをビジネスに活かしていくのかといった、ビジネス視点での具体的なデータサイエンスに関する活用方法が記載されています。
現場での具体的な話が多いので、「データサイエンスって、こんな風に進んで行くんだ!」という具体的なイメージが湧くんじゃないかと思います。
データマイニングエンジニアの教科書
こちらに関しては、データサイエンス領域で必要になってくる知識を網羅的に抑えた、技術者向けの書籍となっています。
計算機がどのようにデータを扱うのか、統計学、機械学習にはどういったものがあるのかといったことを中心に記載されています。
データサイエンスに必要な技術領域がどういったものなのかを理解するのには最適な一冊だと思います。
データ分析に必要な思考プロセスを身に付ける
ここら辺の領域に関しては、データサイエンスの領域としてなかなか紹介されることが少ないかと思いますが、個人的にデータサイエンティストとしての基礎スキルとして、以下の3つの思考プロセスが必要になって来ると考えています。
・ロジカルシンキング
・科学的思考プロセス
・コンピュテーショナルシンキング
詳細に関しては割愛しますが、「問題を分解する」、「良い課題を設定する」、「仮説検証の繰り返しにより改善する」、「具体的な実行手段に落とす」といったことに必要になって来るスキルです。
最近流行りの言葉で言うと、STEMに関するスキルに近いかもしれませんね。このトピックでは、それらのスキルを身に付けるための書籍を紹介させて頂きます。
書く技術、考える技術
こちらは、ロジカルシンキングの古典ですね。
今ではコンサルタントなどが常識的に使っている、ロジックツリーなどを開発したバーバラ・ミントさんの一冊。
ロジックツリーなどの構造を用いることで、文章を明快にするための方法が書かれています。また、ツリー構造を作るうえで、どういった所に気を付けるべきか、どうい手順で作成するのかといったことに関して記載されています。
かなり骨太な内容となっていますが、この内容を身に付けることができればコンサルタントとしての入門レベルになると思いますので、データサイエンス領域以外の色んな場面で活きてくると思います。
入門 考える技術・書く技術 日本人のロジカルシンキング実践法
こちらに関しては、上記の書く技術、考える技術を若干ライトにして読みやすくした内容となっています。
上記書籍の翻訳者である山崎さんに執筆された書籍で、原著のエッセンスは残したまま圧縮した内容となっていますので、まずはここからスタートしてより深く学びたくなったら原著を参照するような学習の仕方だと挫折しにくいかもしれませんね。
考える技術・書く技術 ワークブック(上)
ロジカルシンキングやロジックツリーに関して、理論を理解したとしても、実際に作ってみると、なかなか作れないものです。
そのため、書く技術・考える技術を学んだ後は、ワークブックを使って練習して行くのがおススメです。
考える技術・書く技術 ワークブック(下)
論理思考101題
ロジカルシンキングの演習問題として、以下の書籍もおススメです。
日本語における論理的な文章構造の理解、議論や論証における論理がどのようになっているのかといった所を問題形式+解説という形で説明する書籍です。
正しく日本語を使う、論理的に正しく理解するというのは想像しているよりずっと難しいことだということが良くわかります。
練習問題形式となっているので、1日1題などゆっくり読み進めても良いかもしれませんね。
科学的思考のレッスン
データ「サイエンス」という以上は、「科学とは何か?」ということに関しての理解は必須です。
「理論と事実がどう違うのか」、「良い仮説や理論とはどういったものなのか」、「説明するとはどのようなことなのか?」、という科学的な思考するにおいてシンプルで本質的、非常に重要な部分の解説を、実際に科学の歴史的な背景や発展を元に解説している一冊です。
イシューからはじめよ
分析や機械学習にに関しては、「イシュー(課題)に対する答えを出す」、「イシューに関する解決策を提供する」、という役割を果たしますが、そもそも、その課題に対して答えが出たり、課題が解決したりした場合の成果を保証するような物ではありません。
どのようにしてイシューを見極め、設定していくのか。また、分析して伝えるのかということに関して解説した一冊となっています。
イシューの質を見極めて分析をすることによって、データサイエンスによる効果を何倍にも引き上げることができるようになるかもしれません。
仮説思考
こちらに関しても、イシューからはじめよと同じく、仮説の重要さを説いた一冊となっています。
個人的には、「問題発見の仮説と問題解決の仮説を切り分けて考えるべき」といった内容が印象的でした。具体的にどのようにして仮説を作って行くのかという引き出しを増やすことができると思います。
教養としてのプログラミング的思考
プログラミングを教えるのではなく、「プログラミングにおける思考方法」に関して解説した一冊となっています。
プログラミングにおいて非常な重要な部分である、物事を抽象化したり、モデル化したり、手順化したりということに関する理解が深まると思います。
プログラミング未経験者の方は、いきなりプログラミングを始めるのではなく、一旦こういった書籍で本質的な部分を捉えてからやるのが良いのではないかと思います。
コンピュテーショナルシンキング
データサイエンスを仕事で活用して行くに当たって、機械学習だけではなく、コンピュータで解ける問題を幅広く理解することが重要です。本書では、秘書問題、最短経路問題、最適マッチング問題など、コンピュータでど解ける問題に関して幅広く取り扱っています。これらの問題を理解することで、モデル化をした後にどのようにそのモデルを活用して行くのか、現実問題をどのような問題に落とし込むことができるのかといった、データサイエンスを価値に転換するための思考を身に付けることができます。
UMLモデリングのエッセンス 第3版
UMLとは、エンジニアがシステム設計をする際に用いる図表のことを指します。これらを使うことで、非常に抽象的なシステム設計というものの理解を深め、他人に伝えやすくすることができます。「エンジニアの領域なのでデータサイエンティストには関係ないのでは?」と思う方もいらっしゃるかもしれませんが、UMLを覚えることで非常に力を発揮します。なぜなら、データサイエンティストが扱う問題は非常に複雑で抽象的であり、UMLの考え方を用いることで問題領域を明確にできるからです。「データ構造はどうなっているのか?」、「どういった関係者がいて、どのような順序でシステムが使われていくのか?」などをUMLで整理することができます。直接的ではなくても、UMLの考え方を用いることで課題を明確にできることは間違いないでしょう。
データ分析の基礎を身に付ける
データサイエンスの基本的なプロセスとしては、超ザックリと分けると、以下の3種類に分けられます。
・分析のテーマを決める
・分析テーマを定量的に分析する
・分析結果からアクションに落とし込む
このトピックで紹介する書籍に関しては、上記の3つのプロセスを実施するに当たって役立つ書籍を紹介しています。
機械学習を使ったデータ分析でも本質的には上記のプロセスに変わりはなく、機械学習のスキルとは別軸のスキルでもあるので、機械学習を覚えたけどイマイチ仕事に活用できないという人はここら辺の書籍で勉強すると良いかもしれません。
仕事の説明書
ロジカルシンキングからドキュメンテーションの話まで含まれている書籍なので、これをどこのトピックに入れるかは非常に悩んだのですが、データ分析の基礎を身に付けるための書籍に含めました。
分析のテーマを決め、定量的に分析し、アクションに落とし込むといった分析のプロセスを一冊の中に落とし込んだ一冊となっているので、データ実際にデータ分析をする際には、名前の通り説明書として活用して頂ける一冊だと思います。
以下の記事にて詳細な書評を記載していますので、興味がある人は是非読んでみてください。
本物のデータ分析力が身に付く本
データ分析設計、データのチェック、分析手法の決定、分析、分析結果の読み解き、というプロセスを、実際の演習形式で経験できる一冊となっています。
Excelを用いて実際に手を動かして分析を経験できるので、書籍で読むだけに比べて、実践的な知識が身に付くのではないかと思います。
ドキュメンテーションを身に付ける
基本的に、組織の中で分析をする上で避けて通れないのが「ドキュメンテーション」です。
特にデータサイエンティストという仕事は、複数の組織と横断的に関わることが多いので、「相手に合わせた情報のアウトプットを作成し、相手に期待した認識を持って貰う」、ということが非常に重要になって来ます。そのためには、以下のようなスキルが必要になります。
・認識をズレないようにする説明方法
・必要以上、必要以下にならない情報設計
・相手の意思決定を促すためのプレゼンテーション
・認識にズレがなく、意図が正しく伝わるグラフの使い方
そのため、上記を適切に選択するための書籍を紹介させて頂きます。
「うまく」「はやく」書ける文章術
以下のような、どんな文章を作成するに当たっても重要なことがきれいに整理されています。
・文章を書く前にしっかりと情報を集める
・文章のターゲットを明確にする
・受け取り手にどんな感想を持って貰いたいのか決める
・相手に合わせて文章のテイストを変える
・ストーリーのフレームワークを用いて文章の構造を作成する
プレゼン資料であったとしても、分析結果の報告レポートであったとしても、メールであっても使用できる原則が多く入っているので、資料を作成する前に参照する書籍として使ってみると、何かヒントが得られるかもしれません。
図で考える、シンプルになる
交換の図、ツリーの図、深堀の図、比較の図、段取りの図、重なりの図、ピラミッドの図といった、意図を効果的に伝えるためにどのような図を用いたら良いのかという7つの図と、その作り方に関して解説された一冊です。
プレゼンでの図表作成に慣れていない人に関しては、まずはこの7通りの図を上手く使いこなせるようになると、資料のレベルが1ランクアップするのではないでしょうか?
プレゼンテーションzen
プレゼンテーションにおける、準備、資料のデザイン、実施において気を付けることが書かれた一冊です。
プレゼンテーションにおけるストーリーテリングの重要性、メッセージの選び方、伝え方、デザインにおける余白の使い方やコントラストといった内容が解説されており、プレゼンテーションにおける重要なことを圧縮した一冊といえるでしょう。
もしプレゼンテーションが重要な部分を占めるような仕事の場合は、この書籍を熟読することをおススメします。
グラフを書く前に読む本
棒グラフ、折れ線グラフ、円グラフ、レーダーチャート、ヒートマップ、散布図、積み上げグラフといった、代表的なグラフの作り方と使い方を解説した一冊です。
各種グラフを適切に、効果的に使うにはどのように使い分ければ良いのか、各グラフを作るときの注意点などを解説しているので、なんとなくでグラフを作ってしまっている人は、自分の作成するグラフの使い方があっているのか、確認してみても良いかもしれませんね。
データビジュアライゼーションの教科書
「データを伝わりやすく、認識のずれなく、見やすく伝えるにはどうすれば良いか?」、ということについて書かれた一冊です。
色の使い分けの仕方だったり、凡例やデータ項目の並び順、欠損データがある際のビジュアライズをどうするかといった具体的なノウハウが盛りだくさんです。
データビジュアライズにおいて、データサイエンティストの1年目に叩き込まれる内容を一通り網羅した、超実践的な内容になっているなぁという印象です。
SQLを身に付ける
ここからは、データサイエンティストとして活躍するために必要な、具体的な技術的なスキルを身に付けるためのコンテンツを紹介して行きます。
まず、データサイエンティストとして活動する上で避けて通れないのがSQLです。機械学習を行う前のビッグデータの集計、加工にはSQLを用いることが多くデータベースとSQLはデータ分析の中心にあると言っても過言ではないでしょう。
プログラミング系に関しては実際に動かして覚えた方が良いので、ここからは実際に手を動かして学べるようなコンテンツも紹介して行きます。
10年戦えるデータ分析入門
SQLの初学者がまず最初に勉強するのであれば、こちらのコンテンツがおススメです。サンプルデータを元に、実際に手を動かしながら学習することができます。の文法であったり、データベースの作り方など、データ分析を実務でする上で最低限押さえておかなければならないSQLの領域を一通りカバーしているんじゃないかなという、非常にバランスの良い書籍になっています。
ビッグデータ分析・活用のためのSQLレシピ
こちらの書籍に関しては、非常に実践的な書籍となっています。実務で実際にありうるシーンを想定して書いてあるので、辞書として手元に置いておくと、「あれ、この集計どうやるんだっけな?」という時の手助けとなると思います。「黒魔術本」ともいわれるほど実践的な技術が詰め込んであるので、上記でご紹介した「10年戦えるデータ分析入門」の学習を終えて、ある程度実務を経験した方が読むのにちょうど良いレベル感になっています。
Progate
SQLに関しては実際に手を動かした方が理解しやすいと思いますので、まず最初にライトに始める方に関してはProgateなども活用して頂けると良いのかなと思います。
学習用データセット
実際にSQLの勉強をしてみようと思った時に困る問題の一つに、「どのデータセットを使おう?」というものがあるかと思います。データセットとしては、Googleのアクセス解析用のログがBigQueryから接続できるので、サンプルデータセットとしておススメです。
BIを身に付ける
データサイエンティストの中でも、定量的な分析からビジネスにインパクトのある指標を探し出すような分析をする際には、BIの利用が欠かせません。BIに関しては、主に以下の2点の用途で使用されます。
・アドホック(探索的)な分析を効率的に実施する
・重要な指標を定点的に観測する(集計単位なども変えながら見る)
機械学習で予測した結果や、機械学習を用いた分析によって得られたKPIを定点的に観測するというような用途でも使われます。
BIに備わっている機能は被っていることが多いので、とりあえず何か1種類やってれば応用は効きます。現状ではTableauが優勢だと思っているので、とりあえずTableauを学んでおけば良さそうです。
使用するBIツールが決まっている場合は、そのBIにフォーカスして勉強しても良いかなと思います。
Tableauデータ分析~入門から実践まで~第2版
仕様期間が2週間あるのでその期間でやりきるか、Tableau Publicなどの無料で利用できるようなサービスを使用すれば、無料で学習が進められると思います。
また、サンプルデータで入っているスーパーストアのデータセットがめちゃくちゃ良く、BIの学習と一緒にデータ分析の勉強が捗るのがおススメポイントですね。
統計学・機械学習に必要な数学を身に付ける
ここからは、ようやく統計学・機械学習領域に入って行くのですが、統計学・機械学習を進めるに当たって基礎的な数学力は必須になって来ます。
ただ、ここに関しては高校、大学等でどの程度ガッツリと数学を勉強したかに依存するところがあるのでレベルに合わせた書籍をいくつか紹介させて頂きます。
いずれも、統計学・機械学習の基礎となる数学を取り扱った書籍となっています。
人工知能プログラミングのための数学がわかる本
こちらは、AI特化のプログラミングスクールであるAidemyの代表をされている石川聡彦さんの出版された書籍です。書籍のタイトル通り、数学基礎、微分、線形代数、確率といった、人工知能プログラミングをやるにおいて、最低限押さえておかなければいけない数学を一通り網羅しています。大学が文系の方だったり、大学卒業からしばらく期間を置いてしまって数学を忘れてしまった方がデータサイエンスに取り組むに当たって学習するのに最適な一冊になっているかと思います。
統計学が最強の学問である[数学編]
こちらは、冒頭で紹介させて頂いた「統計学が最強の学問である」の数学編となっています。この書籍の特徴として、「圧倒的に日本語が多い」という所が挙げられるかと思います。「何のためにその計算をするのか?」、「どういった考えに基づいてその計算をするのか?」といった所に踏み込んでいるので、一般的な数学の書籍だと置いていかれる方であったとしても楽しく読み進めることができるんじゃないかなと思います。
マセマ出版線形代数、微分積分
データサイエンスの基礎で必要になる微分積分、線形代数に関してしっかりと勉強したい方に関しては、マセマ出版社の書籍がおススメです。数式をしっかりと展開しながら、表面的な理解だけではない知識を身に付けられるレベルで解説しつつ、その中では比較的平易に解説しているという、バランスの良い書籍になっているかと思います。演習問題も豊富なので、実際に問題を解きながら学習することができます。
予備校のノリで学ぶ「大学の数学・物理」
「書籍での学習だとモチベーションが続かない!」という方には、ヨビノリたくみ先生の、Youtubeがおススメです。大学数学をめちゃくちゃ分かりやすく丁寧に動画で解説していますので、動画で学習したい方はこちらを参考にして頂けると良いかと思います。線形代数や微積はもちろんのこと、最近では機械学習がどんなものかに関するコンテンツも配信されているので、是非チェックしてみてください!
Pythonの基礎を身に付ける
機械学習のプログラムを実装する際に使われるのは概ねPythonかRですが、これから学び始める人はPythonから学び始めた方が良いと思うので、Pythonの学習コンテンツに関して紹介します。
Pythonに関しては、実際にオンライン上で動かしながら学ぶことができるコンテンツが充実しているので、書籍で勉強するというより、それらを活用すると良いかと思います。
progate
プログラミング学習の最初の一歩としては、幅広い言語でプログラミングが学べるprogateがおススメです。基本的な文法に関して学ぶことができるので、まずはこちらで基礎を身に付けて、後述するコンテンツにチャレンジしてみて頂くような流れが良いかなと思います。
pyQ
pyQに関しては、Python特化の対話型プログラミング学習サービスで、Pythonに特化している分コンテンツの幅が広く深いという特徴があります。pandasやnumpyといったデータ分析に必要なライブラリの使い方から機械学習に至るまで幅広い領域のコンテンツを取り扱っているので、非常に効率良くPythonの学習ができるのではないかと思います。
paiza
paizaでは難易度に分かれたプログラミング問題が準備されていて、それを解くことによって転職活動にも活用できるというコンセプトで運用されています。どの程度のレベルの問題が解けるとどんな会社に転職できるのかを確認しながらスキルアップして行くことができるので、直近で転職を視野に入れている方はpaizaを使って学習しながら実績を作って行くと良いかもしれませんね。
統計学を身に付ける
統計学入門
データ分析をする上で必須となる統計学の知識ですが、押さえておくべき書籍としては、東京大学出版会の「統計学入門」がおススメです。統計赤本と言われる、業界のデファクトスタンダード的な書籍ですので、統計学を学ぶ方はまずはこの書籍を片手に勉強を始めてみるのが良いかと思います。
Pythonで学ぶあたらしい統計学の教科書
統計学を学ぶ上で、実際にデータを使って、数値を計算しながら学習するプロセスも非常に重要になって来ます。Pythonで実際に動作を確認しながら勉強できる内容になっているのがこちらの、「あたらしい Pythonで学ぶ統計学の教科書」です。Pythonに関する処理と統計学の解説のどちらかに偏らないバランスの良い一冊になっているので、理論、実装共に身につく内容になっているかと思います。
バイアスをしっかりと理解する
統計学を覚えて新しい武器を手にすると、「統計的に有意なことが絶対的に正しい」という思考に陥りがちです。
統計的に有意というのは、その実験・観測環境下で確率的な事象である有意差が発生しているというだけで、絶対的な真理ではありません。
極論を言ってしまえば、有意水準5%という条件であれば、「20回に1回間違って有意であるという判断をしてしまっても、それは許そうね。」という、人間の定性的な匙加減を採用したものなんですよね。
また、別の角度から具体的な例を用いると、メールを配信したユーザー群としなかったユーザー群の商品購入率に関して検証を行う。みたいな実験をした場合、背景に潜む分布が違うので、サンプルサイズを大きくすれば、「有意差はほぼ間違いなくある。」という結論になるのは自明ですよね。
これらの、統計的に数値を扱うという作業は、直感的ではない意思決定をすることを多く強いられます。
直観的ではないというのは、「バイアスをが無い状況」、ということなので、人間が物事を判断するときにどういったバイアスがかかるのかを理解することである程度避けることができます。
人間である以上バイアスを避けきることはできませんが、しっかりとバイアスを理解することで、より建設的な推論をすることができるようになります。
考えることの科学
こちらの書籍では、物事を直観的に理解する際に出てくるバイアスであったり、人間が効率良く思考を進めるための仕組みであるヒューリスティックの特徴であったりを実験や例示を元に解説しています。人間の推論がどのように機能するかということを解説した一冊になっているので、推論をすることが仕事の中心にあるデータサイエンティストが罠に嵌ってしまわないためにも読むべき一冊ではないかと思います。
ファスト・スロー
こちらの書籍に関しては、ノーベル経済学賞を受賞したダニエル・カーネマンさんが執筆した、行動経済学について書かれた書籍となっています。人間がどう物事を見て、どう理解して、どう意思決定するのかということについて書かれています。なぜデータ分析においてそれらが重要なのかというと、データが発生する裏側にバイアスが含まれているからです。ユーザーデータを分析するに当たって、データは必ず歪んでいます。そのデータを分析する際に、どのようなバイアスがかかってデータが作られたのかを考察することで、ユーザーのインサイトを深く理解することができます。人間を正しく知ることが、顧客を正しく知ることに繋がるのです。
FACTFULLNESS
FACTFULLNESSに関しては近年ベストセラーになったのでご存じの方も多いかもしれませんが、こちらに関しても物事を捉えるときに陥ってしまう罠に関して取り上げてあります。我々は、世の中を分断したがったり、過度にパターン化してしまったり、ネガティブに情報を捉えてしまったりしがちです。「定量的な根拠に基づいた分析と意思決定」がデータ分析の本質的な価値です。それがなぜ重要なのかが、この書籍を読むことで痛いほど良く分かるかと思います。FACTFULLNESSな分析をするためにも、是非一度読んでみて頂きたい一冊になっています。
機械学習入門編
ここまで来て、ようやく機械学習のコンテンツに入りましたね!
機械学習に関しては、ある程度基礎を抑えた上で、個別領域の専門書籍だったり論文などを参照しながら進めることになることが多いので、ここでは、機械学習全体を包括的に学習できるコンテンツを紹介させて頂きます。
まずは機械学習の入門コンテンツです。
Chainerチュートリアル
Chainerチュートリアルに関してはオンライン上で無償で公開されているコンテンツとなっています。機械学習に使用される数学からpandas, numpyを用いた前処理、回帰分析を用いた簡単な機械学習までといった、機械学習の入門に適したコンテンツを提供していますので、機械学習の第一歩としては最適なコンテンツになっているのではないかと思います。
Pythonによるデータ分析
Pythonを使用してデータ分析を実施する際に必要な前処理、基礎分析を一通りカバーしている一冊になっているかと思います。600ページ弱のページ数で、Pythonを使ったデータ加工、集計、可視化などに関して解説してあります。これからPythonを使ってデータ分析を始める方が最初に手に取るべき一冊なんじゃないかなと思います。
Pythonではじめる機械学習
上記の書籍が終わった後に取り組む書籍としては、こちらの「Pythonではじめる機械学習」が良いでしょう。各種機械学習のモデルを実装する所から、特徴量エンジニアリング、モデルの評価、改善まで幅広く取り扱っています。こちらの書籍で学習することで、機械学習に関する一連の流れを習得することができます。
機械学習に関する理論の学習
機械学習に関してはライブラリが非常に充実しているので、それっぽいアウトプットが簡単に作れてしまいます。精度が高く運用上困らない場合はそれでも良いかもしれないですが、モデルに対する根拠が求められる場合であったり、モデルの精度が出ず改善の必要がある場合は理論に対する理解が求められます。ここでは、機械学習の理論を学ぶのにおススメな書籍を2冊ご紹介させて頂きます。
データ解析のための統計モデリング入門
こちらの書籍では、一般線形化モデル、一般線形化混合モデル、階層ベイズモデルなど、予測問題で使われるモデリング手法に関して取り上げ、どういった理論に基づいてそのモデルが構築されているのか、MCMCを使ってどのようにパラメータを推定するのかといった内容に関して解説されています。予測モデルの背景に潜む理論を学習するのに最適な一冊になっているかと思います。実装自体はRを使った実装となっているのですが、そこまで難しいコードでもないので、Python中心の方でも学習に活用できるかと思います。
はじめてのパターン認識
データ解析のための統計モデリング入門がどちらかというと予測モデルに寄った内容となっていたのに対し、こちらの「はじめてのパターン認識」に関しては分類問題を中心に扱っています。上記のデータ解析の統計モデリング入門と合わせて読むことで、予測モデル、分類モデルの両方の理論に対する下地が付くんじゃないかなと思います。
実践的な機械学習を身に付ける
実際に機械学習を身に付けても、「実際に仕事に役立てる」、「モデルを改善してブラッシュアップする」という段階まで行かないと、なかなか価値を生み出しません。
また、実際にデータ分析をするに当たって、前処理の工程なども重要になって来るので、この章では、より実践的に機械学習を学習するためのコンテンツを紹介します。
仕事ではじめる機械学習
こちらに関してはその名前の通り、「実務でいかに機械学習を活用するか?」という所にフォーカスした一冊となっています。機械学習システムの設計であったり、実務で機械学習を使うに当たって重要となること(ログの設計や実務的な効果検証方法など)を扱っていたり、映画の推薦システムを作ってみる実例であったり、実際に現場に出て使える内容が詰まっています。機械学習を覚えてから、実務に入る前に是非読んでみて頂きたい一冊です。
kaggleで勝つデータ分析の技術
機械学習のコンペサイトとして有名なkaggleでいかに勝つかのテクニックを紹介した一冊となっており、「いかに予測モデルの精度を上げて改善して行くか?」という所にフォーカスをしています。kaggleに限らず、バリデーション手法をどう使い分けるかであったり、複数の学習モデルを組み合わせたアンサンブル学習のやり方であったりと、モデルの精度が求められるような環境では、活用できるできるような内容となっていますので、kaggleに興味が無い人でも参考になることが多い一冊なのではないかと思います。
前処理大全
こちらの書籍に関しては、重要だけどフォーカスが当たりづらい「データの前処理」にフォーカスした一冊となっています。Python, R ,SQLのデータ分析で使われる3種類の言語でそれぞれ記述してありますので、それぞれの言語の向き不向きに関する理解が深まるかと思います。データサイエンスは前処理が8割とも言われるので、是非この書籍を片手にプロジェクトに当たってみて頂けたらなと思います。
戦略的データサイエンス入門
こちらの書籍では他の書籍で紹介されている理論やアルゴリズムに関する話題も取り扱われているのですが、特に「ビジネスにおいてどう使うか、何を考慮するべきか?」とい所を主軸に置いているのが他の書籍と一線を画すポイントかと思います。そのため、各章ではその章で紹介した技術に基づいた事例が紹介されています。データサイエンスの最終的なゴールが課題解決である以上、「データサイエンスがどう使えるのか?」というのは非常に重要になって来ます。機械学習を一通り理解して、具体的な事例などを知りたくなった方は是非手に取ってみてください。
データマネジメント
データサイエンティストになり立ての人がこの領域で働くことはほとんど無いと思いますが、SIer出身でデータ整備に長けていたり、データサイエンスチーム立ち上げの時期にあってデータの整備や設計から入らないといけないという場合には、以下のような書籍がおススメです。
データマネジメント知識体系ガイド 第二版
データ分析をしていると、「結局はデータの質だよね」という結論に行きつくこともあるので、データマネジメントはデータ分析の成否のかなり重要な要素を占めています。数十人のメンバーでそれらを体系的にまとめた書籍となっていますので、非常に読み応えがあります。(これだけで読み切るのに1年くらいかかりそうですw)
関連領域や、考えなければならないことが非常に多岐に渡るので、ある程度経験を積んでから手を付けないと、混乱することになる可能性は高いと思いますので、ある程度データ分析を始めてから時間が経った人にチャンレンジしてみて頂けると良いかなと思います。
データマネジメント30分でデータマネジメントが分かる本
上記で紹介したデータ「データマネジメント知識体系ガイド 第二版」のボリュームが多すぎて読み手を選ぶ内容になってしまっているので、そのエッセンスを抽出して、もっと世の中に広めようという試みで出版された書籍です。30秒コース、3分コース、30分コース、3時間コースとどの程度の深さで理解したいかによって章が設計されているのも親切な設計で良いです。元の書籍と特に違う部分としては著者のゆずたそさん(@yuzutas0)の豊富なデータマネジメント経験を元に事例を紹介している所で、めちゃくちゃ具体的でイメージしやすいです。
その他の書籍まとめ記事
ここでは、個別の機械学習の書籍紹介に関しては以下によくまとまっていますので、より発展的な内容を学習したいという方に関しては、以下の記事などを参照にすると良いかと思います。
まとめ
以上、2020年4月版として学習コンテンツをまとめさせて頂きました。データ分析に関する書籍も充実してきた感じがありますね!だからこそ、適切な学習コンテンツを選ぶというのが難しくなっているようにも感じます。
こちらのコンテンツを一通り学習して身に付けて使いこなして頂ければ、データサイエンティストとして中級者以上には到達できるではないかと思いますので、是非チャレンジしてみてください!!
100本ノック的なコンテンツやUdemyなどのオンラインのコンテンツも含めて網羅的に紹介できればと思ったのですが、自分が学習に使ったコンテンツも含めるとどうしても書籍が中心になってしまいますね・・・
皆さんのおススメコンテンツなども聞いてみたいので、皆さんのおススメ書籍まとめも書いてみてください♪
データサイエンティストは学ぶことがいっぱいで大変ですが、その分チャレンジングで楽しい仕事でもあるので、みなさんも是非学習頑張ってください!!
最後に
これらの書籍に関してゼロから独学で学ぼうと思ったら、めちゃくちゃ大変ですよね・・・
そんな方のために、これらの書籍に書かれてあるようなことを学習していく上での下地を作るためのデータサイエンティスト講座を作りました!!
上記で紹介したような内容の概念を理解して、効率的に学習できるような状況を目指す講座内容となっています!!3ヶ月ガッツリと集中して勉強した後に、上記のような書籍を教材にコミュニティで学習して行くというような設計にしてるので、腰を据えてしっかりとデータサイエンスの勉強をしたいという方にはおススメな講座となっています。
「キャリア相談会」という形で将来のキャリアに不安を持たれている方の相談会を実施していますので、オンライン飲み会に参加するくらいのノリで遊びに来てください♪
また、独学で進める場合でも上記のコンテンツを学習するに当たって分からないことを気軽に聞けたり、分からない所を教えあったり、勉強会を開催してモチベーションを保ったりするための環境として、データラーニングギルドというオンラインサロン型のコミュニティも運営していますので、是非遊びに来てください!
こちらの書籍に書いてある内容であれば、概ね質問等答えられると思います。(書籍を参照しながら必死に再学習する可能性大ですがw)
上記で紹介した書籍を教科書とした輪読会なども行っていますので、一緒に勉強する仲間が欲しいという方をお待ちしています♪
この記事が気に入ったらサポートをしてみませんか?