「データサイエンティスト養成読本ビジネス活用編」は名著過ぎて、時代が時代なら焚書坑儒されかねない。

技術評論社さんから「データサイエンティスト要請読本」ビジネス活用編を献本頂きました。ありがとうございます。

今回は本書について、どういう本か簡単に解説しようと思います。


前提条件として「データサイエンティストの世界」

世の中には、「データサイエンティストとは現代の魔法使いで、データさえあれば答えを簡単に見つけてくれる存在」と考えている人たちが一定層います。というか、こういう人たちがマジョリティです。

彼らは、技術書は読めないと早々に諦めモードで、かつデータサイエンティストの仕事を理解しようとは思っていません。pythonの技術書は読まないし、べつにN村総研の本も読みません。

ただし、僕たちデータサイエンティストも歯科技工士の専門書は読まないし電子機器組立て技能士の仕事を理解しようとはしません。

こうした断絶は普通にあって、それでも社会は回っています。そういうもんなんです。つまり「データサイエンティストを理解してくれない」のは何ら問題ではありません。

問題なのは、N経新聞やN村総研の本などを読んで「俺たちの仕事に活かせるんじゃなかろうか?」と希望を抱き「今あるデータで何か分かるだろ?」と思いつき、実際に行動を移そうとする人たちです。

「データサイエンスの仕事を分かったつもりになって、データサイエンティストに仕事を依頼してくる」のはちょっと問題です。内容を理解していないのに、本人は理解したと思っているから、余計に問題です。

どういう人たちか。具体的には、以下に分類できそうです。

①経営層、エラい人たち(N経新聞を読んで「なんか知らんけどめっちゃ良さそうやん」と考えて部下に命令する層)

②ビジネスの現場にいる人たち(TwitterやFacebookで「勉強したいと思ってから今度話を聞かせて下さい!」と言ってくる層)

つまりデータサイエンティストを「自分にとって都合の良い存在」にしか思っていない人たちです。

ちなみに、②は「絵描いてんだ?じゃあタダで書いてよ」「エンジニアなんだ!じゃあ私のPC調子悪いから直してよ!」「Twitterのフォロワー数スゴイ多いじゃないですか!僕のTweetをRTして宣伝して下さいよ!」と言っている人と同じだと私は思っております。


さて、厄介なのは①や②を対象に「③データサイエンティストを名乗り、都合の良い人たちの受け皿になっている人たち」がいることです。

実際には外注して、成果報告だけするような人たちです。「魔法使い」を忠実に演じている人たちとも言えます。あの人なんで何もできないのに日経◎◎に寄稿してんの?って人いますよね。

ちなみに私も最近、「データサイエンス超入門」という本を書きました。分析メインではなく、データ収集や読解力がメインなのですが、あえてデータサイエンスという単語を入れたのは、手法先行型の日本に対する当てつけでもあります。

データサイエンティストと名乗っている人の中に、「そのデータどうやって取得すんの?」「そのデータ正しいってどうやって証明すんの?」という質問に、ちゃんと答えられる人は意外と少ないです。

今回、献本頂いた「データサイエンティスト要請読本」ビジネス活用編は、③な人たちにとって都合の悪い本です。なぜならデータサイエンティスト個人だけではなく、組織としてどう立ち振る舞えば良いか、どうやってビジネス成果を上げれば良いかが書かれているからです。

時代が時代なら、③の人らに焚書されちゃうぐらい。だって本当のことが書かれていて目障りだから。


どういった内容が書かれているのか?

章構成は公式HPにて確認してもらうとして、主に3つの観点から構成されていると感じました。

1.ビジネス貢献への視点
2.ワークプロセスへの視点
3.人への視点(評価とか組織作りとか)

1と2は「何のために分析をするのか?」「なぜ分析をするのか?」という質問に答えるための方法論だと思いました。

今まで、こうした質問は元オージス総研の現・滋賀大におられる河本先生の独壇場だったような気がしています。こうして1冊の本に仕上がるまでに色んな意見を体系立てて読むと「ようやく他のプロジェクトの思想や意見が出てきたな…」とも感じます。

システム開発の現場では、人の数だけ手法があると私は感じています。しかしデータサイエンスに関しては「人依存」が激しすぎ、抽象化して体系立って整理された内容を読むのは難しい…という印象を抱いていました。

そうした「職人気質」が良い意味で抜けた内容になっていて、家内制手工業から機械化への脱却のようにも感じています。データサイエンス業界の第1次産業革命やぁ~感。

本書の表紙にも「ビジネスを成功に導くデータ分析組織とは?」とあります通り、組織に関して書かれているなぁ…と実感しました。「こうすればだいたい失敗しないんじゃないですか?」という定石が網羅されていて、かなり参考になります。

凄いなぁと思ったのは第4章「メルカリが挑むスピードデータサイエンス」でしょうか。

取締役会や執行役員でも必要な場合にはSQLを書いている

とサラリと書いてあって、ふぇ~と思いました(そこかい)。ポスグレ派でしょうか、MySQL派でしょうか、それともHive…?

ちなみにキャプチャで撮られたダッシュボードには、あんだけ使うなと言っている円グラフ、ドーナツグラフが描かれていて、恐らくデモだとは思うのですがあやうくグラフ警察が出動するところでした。

あともう1つ、第6章「データ分析のはじめ方」は探索的データ分析が分かりやすく書かれていて、非常に読みやすいです。シンプソンのパラドックスも出てくるし、データの見方は養えます。この章を読めば拙著「データサイエンス「超」入門」を読む必要はないでしょう。

…あっ、ウソです。読んで下さい。買って下さい。

恐らく、第1章⇒第6章⇒第5章⇒第4章の順に読むとストンと腹オチするのではないでしょうか。


どういった人たちが読むべきか?

この本は、データサイエンスをやろうとしている、SIerさん・自社サービスを持っているテック系企業さんが読むべきだと思いました。

Pythonでコードを書けるし、オライリーのような技術本を読めばどういうインプットが必要かはわかるけど、なぜそんなアウトプットが出てくるかは分からないし、どう解釈すればよいかは分からない人たちがSIerさんやテック系企業さんにはウジャウジャいます。

そういう人たちは「開発」の経験はあるので、プロセスやマネジメントに関しては「自分たちは分かっている」と思い込み、こうした本は手に取らない傾向にあります(松本調べ)。

でも、そういう人たちこそ読んで欲しい。本書にも記載(特に第3章)がありますが、システム開発とデータ分析はプロセスが異なるからです。システムに組み込む機械学習系機能であれば猶更です。

ウォーターフォール型でやると厳しいし、アジャイル型だから「大丈夫」という保証も無い。そのあたりの肌感が無ければ、「なんかうまい感じで行かないね」でプロジェクトが終わるでしょう。

データサイエンスは単なる手段ではなく、「ビジネスを成功に導く」ための重要な手段である。そのための組織論を本書でじっくり理解するのも良いのではないでしょうか。

焚書される前に(さすがに坑儒は無いでしょうが)、皆様のお手元にぜひ。

1本書くのに、だいたい3〜5営業日くらいかかっています。良かったら缶コーヒー1本のサポートをお願いします。