見出し画像

翻訳としてのデータ分析#1 理想のデータ分析

まえがき

データ分析は翻訳に似ている、と思っている。どこかに100%の事実(=原文)があるとして、それをデータとして集めて整理して伝える(=翻訳)、という側面がデータ分析にはある。

大学時代、心理統計学のゼミにいた。恩師がたまに用いる枕詞に「もし神様が全部知っていたとして〜」というのがあった。その言葉が好きだった。全知な存在が見ている景色にどうすれば近づけるのか。どうデータを扱えば100%の事実を可能な限り再現できるのか。

修士課程まで勉強して、その翻訳で食っていけたらいいなと思った。一口にデータ分析と言っても幅広い。いわゆるAIに分類される技術も学んだし、マーケティングリサーチ系の技法も教わった。修士論文では小難しい統計モデリングというのを扱った。

ただ、いずれにしてもデータを扱う以上、翻訳的な側面は確実にある。そして僕は、データ分析に関して、その翻訳という要素が好きだった。今も好きだ。就職活動で強みを聞かれたときも、「翻訳力」と答えていた。

そうして仕事をやってきて10年目に突入した。

先週、柴田元幸さんの『ぼくは翻訳についてこう考えています 柴田元幸の100の意見』という本を読んだ。それを読みながら、自身のデータ分析に対する考えを一度まとめておきたくなった。

データ分析という行為全般に対しての思想(職業観や職業倫理と言ってもいいかもしれない)が語られていることは、意外と少ない。技術や組織、プロジェクト運営についての秀逸なテキストは多いが、分析観を論じるものは余りない。

データ分析関連職は、この10年間、ポストも人数も少しずつ増え続けている。職分の定義も更新され続けている。そんな職種は多くないだろう。幸運なことだ。

僕は割とデータ分析業務には幅広く関わってきたつもりだ。名刺で一番多かった肩書きはデータサイエンティストだけど、分析官やアナリストと言われたりもする。機械学習エンジニア的な動きもすることもあれば、データエンジニア、プロダクトマネージャー的な動きもする。個人的には、分析屋と名乗るのが好きだ。

ベテランの方からすると、僕も青二才でしかない。だが、この職種の10年戦士は割と少数なので、これから書いていくことが、誰かの何かの参考になったらいいなと思う。

とはいえ、第一義は、僕自身の思考の整理である。
柴田さんの本の100のテーマに沿って、少しずつ考えていきたい。

以上!第1話始めます。2〜3日に1回は更新するつもりです。
100回続けられる気は全然していないけれども 笑。

柴田元幸さん、素敵な本をありがとうございます。変な使い方をしてごめんなさい。でも柴田先生には『翻訳夜話2』にサインをもらったことがあります。敬愛しております。

1. 理想のデータ分析

原文抜粋:理想の翻訳

合っているか、間違っているかで言えば翻訳なんて全部間違っている

何もかも全部を伝えるのは原則的に、無理

「ここでは、何が伝わるのがいちばん望ましいのか」ということを見極める

「どう間違うのかがいちばんいいのか」を細かく考えるしつこさがあるといいかも

『ぼくは翻訳についてこう考えています -柴田元幸の意見100-』より

一発目の話から、とても共感してしまった。

データ分析もそうなのだ。注目する事象のすべてをデータとして収集し、可視化したり分析結果を提示したりするのは無理だ。欠落は必ず発生する。そういう意味で、すべてのデータ分析は間違っている。

でもそこで足を止めてもいけないし、データこそ正義と突っ張ってみても始まらない。

その限界を知り尽くした上で、ビジネス的な文脈から分析側の事情まで、諸々を考慮して、伝えるべきメッセージや統計モデルの在り方を見極めなければならない。

ひとつ翻訳と違うのは、翻訳は元々の書き手に意思があるのに対して、データ分析はデータ自体に意思はない、ということだ。

だが、データ分析には、データを必要とする人が「意思決定したいこと」がある。だから、その意思決定したいことを基に、「何が伝わるのがいちばん望ましいのか」を見極めればいい。意思決定したいことがなかったら、対話すればいい。

意思決定したいことがなければ、データ分析は、おそらく必要ない。というか、それがなければ、伝えるべきメッセージを見極めることができない。

逆にいうと、そのメッセージさえ伝えられるならば、データが不完全でも問題ないし、分析過程で欠落するものがあってもいい。僕はよく「何を情報として削ぎ落としても大丈夫なのか」を考える。柴田氏の「どう間違うのかがいちばんいいのか」にはそういう意味で、共感した。

かつて先輩が「この職業は、めちゃくちゃ難しい職業だと思う」と言っていた。僕は、その難しさというのは、この「メッセージの見極め」にこそあると思っている。

データ分析の過程で、考慮すべきことは多い。ビジネス事情が複雑なこともあれば、データを扱う上での罠も多い。一方、結果はシンプルにしなければ伝わらない。

その全部をくぐり抜けて、メッセージを届けるのは、タフな作業だ。

でも僕が仕事をしてきて、最も手応えがあるのは、そのメッセージが伝わったときだ。相手がデータ分析に本当に価値を見い出してくれるのは、その瞬間だと思っている。

だからこれからも、不完全でしかありえないデータ分析において、どう間違えるのがいちばんいいのか、を考え続けたい。

サポートされた者たちから受け継いだものはさらに『先』に進めなくてはならない!!