翻訳としてのデータ分析#1 理想のデータ分析
まえがき
データ分析は翻訳に似ている、と思っている。どこかに100%の事実(=原文)があるとして、それをデータとして集めて整理して伝える(=翻訳)、という側面がデータ分析にはある。
大学時代、心理統計学のゼミにいた。恩師がたまに用いる枕詞に「もし神様が全部知っていたとして〜」というのがあった。その言葉が好きだった。全知な存在が見ている景色にどうすれば近づけるのか。どうデータを扱えば100%の事実を可能な限り再現できるのか。
修士課程まで勉強して、その翻訳で食っていけたらいいなと思った。一口にデータ分析と言っても幅広い。いわゆるAIに分類される技術も学んだし、マーケティングリサーチ系の技法も教わった。修士論文では小難しい統計モデリングというのを扱った。
ただ、いずれにしてもデータを扱う以上、翻訳的な側面は確実にある。そして僕は、データ分析に関して、その翻訳という要素が好きだった。今も好きだ。就職活動で強みを聞かれたときも、「翻訳力」と答えていた。
そうして仕事をやってきて10年目に突入した。
先週、柴田元幸さんの『ぼくは翻訳についてこう考えています 柴田元幸の100の意見』という本を読んだ。それを読みながら、自身のデータ分析に対する考えを一度まとめておきたくなった。
データ分析という行為全般に対しての思想(職業観や職業倫理と言ってもいいかもしれない)が語られていることは、意外と少ない。技術や組織、プロジェクト運営についての秀逸なテキストは多いが、分析観を論じるものは余りない。
データ分析関連職は、この10年間、ポストも人数も少しずつ増え続けている。職分の定義も更新され続けている。そんな職種は多くないだろう。幸運なことだ。
僕は割とデータ分析業務には幅広く関わってきたつもりだ。名刺で一番多かった肩書きはデータサイエンティストだけど、分析官やアナリストと言われたりもする。機械学習エンジニア的な動きもすることもあれば、データエンジニア、プロダクトマネージャー的な動きもする。個人的には、分析屋と名乗るのが好きだ。
ベテランの方からすると、僕も青二才でしかない。だが、この職種の10年戦士は割と少数なので、これから書いていくことが、誰かの何かの参考になったらいいなと思う。
とはいえ、第一義は、僕自身の思考の整理である。
柴田さんの本の100のテーマに沿って、少しずつ考えていきたい。
以上!第1話始めます。2〜3日に1回は更新するつもりです。
100回続けられる気は全然していないけれども 笑。
柴田元幸さん、素敵な本をありがとうございます。変な使い方をしてごめんなさい。でも柴田先生には『翻訳夜話2』にサインをもらったことがあります。敬愛しております。
1. 理想のデータ分析
原文抜粋:理想の翻訳
一発目の話から、とても共感してしまった。
データ分析もそうなのだ。注目する事象のすべてをデータとして収集し、可視化したり分析結果を提示したりするのは無理だ。欠落は必ず発生する。そういう意味で、すべてのデータ分析は間違っている。
でもそこで足を止めてもいけないし、データこそ正義と突っ張ってみても始まらない。
その限界を知り尽くした上で、ビジネス的な文脈から分析側の事情まで、諸々を考慮して、伝えるべきメッセージや統計モデルの在り方を見極めなければならない。
ひとつ翻訳と違うのは、翻訳は元々の書き手に意思があるのに対して、データ分析はデータ自体に意思はない、ということだ。
だが、データ分析には、データを必要とする人が「意思決定したいこと」がある。だから、その意思決定したいことを基に、「何が伝わるのがいちばん望ましいのか」を見極めればいい。意思決定したいことがなかったら、対話すればいい。
意思決定したいことがなければ、データ分析は、おそらく必要ない。というか、それがなければ、伝えるべきメッセージを見極めることができない。
逆にいうと、そのメッセージさえ伝えられるならば、データが不完全でも問題ないし、分析過程で欠落するものがあってもいい。僕はよく「何を情報として削ぎ落としても大丈夫なのか」を考える。柴田氏の「どう間違うのかがいちばんいいのか」にはそういう意味で、共感した。
かつて先輩が「この職業は、めちゃくちゃ難しい職業だと思う」と言っていた。僕は、その難しさというのは、この「メッセージの見極め」にこそあると思っている。
データ分析の過程で、考慮すべきことは多い。ビジネス事情が複雑なこともあれば、データを扱う上での罠も多い。一方、結果はシンプルにしなければ伝わらない。
その全部をくぐり抜けて、メッセージを届けるのは、タフな作業だ。
でも僕が仕事をしてきて、最も手応えがあるのは、そのメッセージが伝わったときだ。相手がデータ分析に本当に価値を見い出してくれるのは、その瞬間だと思っている。
だからこれからも、不完全でしかありえないデータ分析において、どう間違えるのがいちばんいいのか、を考え続けたい。
サポートされた者たちから受け継いだものはさらに『先』に進めなくてはならない!!