データサイエンティストとして読んで役立った本たち@2020-07

2016年10月に未経験・新人データサイエンティストで雇ってもらいました。当時はまだ業界が牧歌的だったのと、比較的書類上のスペックが高い若者だったのもあり、運良く拾ってもらえたのでした。今だと100%受かってないです。

そんな私が今までで読んだ本の中で、役に立った本をつらつら書いていきます。
現代の若者がどんどん優秀になっているので、これくらいでいまんとこいっぱしのデータサイエンティスト(@ビジネスサイド)になれるんだなあという基準を述べようかと思いました。何年か後に振り返りたいですね。
もちろん、これが誰かの学習の役に立てばと思っています。
ちなみに、アフィリエイト入れてないので気にせず買っていってください。

数学

無難に解析学と線形代数学を勉強しておくといいと思っています。

私は杉浦解析派です。大学一年生の頃はまったくわかりませんでした。今は何回か読むと気持ちがわかる、解けるとは言ってない、くらいの感じです。
微積は基本的には気持ちがわかっておけばそれでいいと思います。
普通に生きてる限りでは、短冊や台形に切って積分とか、変化見たいので微分、以上のことそんなにやらないですからね。
あとはベイズ周りで結構関数の性質を使った計算をゴリゴリさせられるので、この式変形どこから来てんだ?とならないために勉強って感じではないでしょうか。
まあ、気持ちだけ分かればいいならもっと別の本があると思うので、今だと別の本を読むと思います。
となると、この本を紹介する意義なくない?しかも一発目で?
逆説的に、学習とはリソース配分の最適化の問題だということを伝えたいのです。文章構成下手かよ。

線形代数は断然斎藤正彦先生です。佐武先生のやつは読んでません。線形代数は解析に比べてルールが少なめだし、何やりたいかが当社比ではだいぶ分かります。
勉強しておいて、とりあえず線形代数で書くと〜という思考があると、その後の見通しがよくなるので、何事も線形代数で書く気持ちを大事にしたいです。
たとえば、P/Lのシミュレーションって複数変数の差分方程式なんですよね。つまり、線形代数で書けるんです。なんだよ線形代数かよ〜となった瞬間にこっちのフィールドになるので、おすすめ。
この本は具体的な計算をゴリゴリ最後までやっていく感じで、自分の脳のキャパに対してちょうどいいゴリゴリ感だったので好きでした。

統計学基礎

ここでは、通読したもの半分、実務上で辞書的に使ってるもの半分くらいのバランスになると思います。

何はともあれ統計学入門ですね。大学の教養の授業では別のライトな本を使ってたので、大学院入ってからこれで勉強し直した記憶があります。

辞書として使った本では、この本が一番役に立ちました。通読は半分くらいしかしてないですかね。
この本の良いところは、とにかく理路整然としているのと、記法がイケてる(私見)ので、途中から議論を振り返りたくなってつまみ読みしてもサクッとああそういう話でしたわねとなりやすいです。
復刊してくれ〜。

久保川先生の本は、区間推定と検定周りのロジックが最も現代的なので、毎回ロジックが怪しくなったら読むようにしています。どっちかっていうとシンプルでソリッドな本なので、いきなり初学者がこれで勉強してもわからないと思うので、いきなり読むのはあまりおすすめしません。

トピック別

最初に読むと、統計学面白いじゃん!となる二冊だと思います。
どちらも問題意識がはっきりしており、中身の数学を追いながら楽しめる本だと思います。
正直、2020年現在では実務よりは教養的な側面が強いですかね。

この本も現代においては教養的側面のほうが大きいと思います。動作を押さえておくべきアルゴリズムがたくさん載っています。ライブラリ使いました、結果としては正しそうです、で終わるのはデータサイエンティストやってる意味がそんなにないですからね。

2020年にデータサイエンティストを名乗るなら、ある程度はdeep learningも出来たほうがいいでしょう。この本をやるなら、バランスとしては決定木系に関しても作って覚えるxgboostくらいの勉強をしたほうがいいと思われますが、悲しいかな、作って覚えるxgboostは存在しないのです。NN系の勉強ならこの本は理解という観点では鉄板だと思いますので、ちょっとバランスが悪いですが挙げておきます。決定木系は日本語のいい解説がたくさんネットに転がってるので、そちらを読むのがいいと思います。

星野先生の赤本とかぶる面がありますが、2020年現在においてはこれは絶対に一読しておくべきです。この本は、理想的な想定方法はもちろんですが、理想的でない測定状況において、どのような評価バイアスが乗りうるかに関して網羅的・系統的に記してある本として現時点で唯一無二だと思われます。

画像の仕事をやったことがあって、そのときに読みました。そのときは適当な論文のCNNをそのまま持ってきてそれを動かしただけでそこそこよかったので、余り苦しまなかったのもあって、そこまで画像系は本を読み漁ってません。

たまにMeCabでパースして自然言語処理とかやりたくなるときがあるので、読みました。解説がわかりやすくて好きでした。現代だとこういうのをすっ飛ばして、ロジスティック回帰などの線形モデルからいきなりNNベースの言語モデルに飛んだほうが現実的にはいいと思います。特にいきなり難しそうなものを解いてくれと言われた場合は。
Attentionとかtransformerとかそのへんってもう和書の解説あるんですかね?まあ、わたしはそのへん使ったことまだないんですけど。

時系列の勉強もしないとなーと思ったので買いました。
これは私見ですが、ほとんどの時系列はぶっちゃけそこまで難しい数学はいらないです。Prophetがあれだけもてはやされている現実をみても、そうでしょう。
ただし、時系列の分析はそれ相応の作法があるので、作法があることの認識くらいはしておいたほうがいいと思います。それも含めてこの本は買ってよかったなと。
というよりかは、難しい数学が要る時系列は金融くらいだ、と言ったほうが正確かもしれません。これも私見です。
実は昔ちょっとだけそっちの方向に行きたかったんですが、すでに私のときは今のソフトウェアエンジニアみたいな状態の業界だったので、自分で色々やってる人か、博士号持ってて超頭いいですみたいな人しか採用してませんでした。人生は何をするか早めに決めれば決めるほど有利になるというのはあるなあと思った記憶があります。

データサイエンティストの7~8割くらいの仕事はSQLを書くことだと言われています。その意味でこの本は外せないかと思います。もっとも、この本が出た頃には私はSQLが書けるようになってたので、実はそんなに読んでないです。自分が知ってるやり方がたくさん載ってたので、自分はそこまで間違ったことしてなかったんだなーと思いました。この文章を書いている今、もちろんドヤ顔をしています。

めちゃめちゃ高いですが、A/Bテストの設計が出来ないと厳しい局面が多々あるのでこれは読んでおいてよかったです。めちゃめちゃ高いですが、これがあるだけで安心感が全然違います。ほんとに。めちゃめちゃ高いですが。

ビジネス書

仮説思考・論点思考は必須で読むべきだと思っています。一回読んでなるほど〜となるのもいいですが、二回三回と読んで、そうだ俺はこういう仕事をしているんだ、としみじみ味を噛みしめるのもオツだと思っています。

やはり、名著です。戦略的思考と書いていますが、データ分析を元にどう論じ、どうアクションにつなげていくかを書いた本の中では一番読みやすく、理解しやすかったです。

この本もやはり名著です。簡明でわかりやすい数学モデルと、経験からくる熱の入った解説は必読だと思います。
また、データサイエンティストとしてのキャリアパスを描く意味でも読んでおいて損はないかと思われます。

大学当時はこういうの本当に死ぬほど嫌いでしたが、歯を食いしばって悔しがりながら読んでみると、やはり名著です。体系化のレベルがすばらしいです。というかこれ読まずに就活してた自分よ。そしてチンケなプライドを持つことは何の得にもならないということを理解させてもらいました。その意味でも読んだほうがいいと思います。

この本を読んだ後から、自身はだいぶ消費者心理の観点で素直に語れるようになったと思います。この本は、一番尤もらしく一番メジャーな仮説を出せるようになるための本だと考えています。

その他の勉強について

ここに載ってないことで他に勉強したのは、pandas・matplotlib・推薦システム全般・分散データ処理システム基盤の仕組み・その上にのってるソフトウェアの仕組み・ソフトウェアの開発およびリリースのプロセス、くらいです。
これらはすべて実戦投入されて、こういうことがやりたいんだよな〜とやってみてはハマり、ググっては試し、周りの人に教えてもらい、で覚えて行きました。
私の場合は特に、なにかやりたいことがないとプログラミングをしても全然頭に入ってこないたちなので、あまり本でプログラミングを勉強したことはないです。
その点において、色々チャンスがもらえてありがたかったですね。チャンスがきても準備をしてないとなかなか活かせないものなので、本で勉強すればなんとかなることは、しっかり本で勉強しておくのがいいと思います。

この記事が気に入ったらサポートをしてみませんか?