データ分析の際によく読んだ本のリスト
ある時期に、生体や産業データの分析をよくやっててその頃に重宝した本のを 3 冊ほど紹介しようと思います。大体は詳しそうな人から伺った受け売りですけどね。結構はやりすたりに影響されず、長持ちする知識だと思うので、データを使って何かしたい人たちは読むといんじゃないかなとは思います。書籍 1 を読んだ後に、書籍 2 と書籍 3 を必要な時に読むとそういう仕事をする際に便利です。
書籍 1. [東京大学教養学部統計学教室 1991] 統計学入門
統計量や確率分布の定義や、相関、回帰、推定、及び検定等基本的な考え方について載っている本です。
書籍 2. [北川 2005] 時系列解析入門
時系列データで重要なポイントはある時点の値とその前後の値との関係であり、基本的なものだと自己相関関数とよばれる過去のデータにどれくらい似ているかを示すものがあります。このような考え方や、ARMA 等の基本的な時系列モデルの説明が書いてあります。
書籍 3. [久保 2012] データ解析のための統計モデリング入門
一般化線形モデルとよばれる、線形回帰やロジスティック回帰を含む広いクラスのモデルについて書いてます。
あと、データ解析のリテラシーの細かいところは (統計モデルがなんで必要なのかとか、テーブルデータのカラム間の割り算値を統計モデルに使わないとか、) はこの本で学びました。
付録. データ分析よくしてた頃の個人的なポリシー
現場と人による話だと思うので、あんまり参考にならないかもしれませんが、「ああ、こういう考え方もあるのだな。」という感じで読んでいただくといいのかなと思います。
- ある統計のライブラリがあったときに、数式に落として腑落ちしていない場合には、そのライブラリ使ってコードを書かず、定義にかえることを徹底しました。例えば、Python モジュールの statsmodels で線形回帰を使うときは、教科書の線形回帰の定義と github の該当するコードのを式との差分をチェックすます。当方としては、効率よりもこの種の厳密さをとりました。 https://github.com/statsmodels/statsmodels/blob/master/statsmodels/regression/linear_model.py
- データで何らかの結果を出したら直ぐに関係者にレビューを受けました。
- とにもかくにもドメイン知識が大事なので、本の知識以上にその知識の習得に力を注ぎました。あと、データ分析に関する意思決定者との会話を頻繁にすることです。ドメイン知識を形式化するためには、それなりの技術がいって、それはまた別の機会にでも書こうかなと思います。 (「ドメイン知識」と書いていますが巷でいうところの DDD とはまた別の話です。当方は DDD は良く存じ上げない。)
この記事が気に入ったらサポートをしてみませんか?