「データサイエンティスト」という言葉の濫用について

 データサイエンティスト協会が『データサイエンティストのためのスキルチェックリスト/タスクリスト概説』とやらを公開したらしいので読んでみたが、これが本当に酷い。何が酷いかといえば「データサイエンティスト」という言葉が濫用されていることなのだけれども、これは当該リストの存在を知る前から気になっていたことなので、ここで記事にしてみる。結論を先に述べておくと、「言葉を大切に扱いましょう」が僕の言いたいことだ。べつにこのスキルチェックリストが無意味だとは言わないが、これは明らかに「データサイエンティスト」という言葉の濫用であり、一種の(変形された)No True Scotsman 論法である。

 当該リストにおいては、データサイエンティストのスキル定義に以下の三カテゴリが用いられている。

- ビジネス力

- データサイエンス力

- データエンジニアリング力

 ここですでにおかしいと感じたひとはきちんと問題点が理解できているひとなので、これ以降の記述を読む必要はない。そうでないひと向けに、何が問題点であるかを簡潔に説明すると、ここでは -ist という接尾辞が濫用されているのだ。

 接尾辞 -ist は、専門家や主義者、プレイヤー等々、その接頭の語から"人"を表す名詞をつくり出すものである。ギタリストはギターを演奏するひとであり、アナーキストは無政府主義者であり、サイエンティストは科学者である。僕は英語に明るいわけではないので、こういった用法とは著しく異なる例外があればぜひ教えてほしいが、おそらくそれは上記カテゴリ分けのような類の濫用を非難するにあたって本質的な障害となるような反例にはならないだろうと考えている。であれば、データサイエンティストはデータサイエンスをするひとであって、ビジネスやエンジニアリングといった副次的なスキルがあるかどうかは、本来問うてはならないものであるはずだ。ここで文章を読まず勝手にノイズを混入させて早とちりしてしまうひとのために註を入れておくと、それらのスキルは実際のデータ分析業務において確かに役立つし、企業によっては不可分であるようなところもあることは否定していない。ビジネス力もデータエンジニアリング力もかなりのレートで換金できるし、僕が採用者であればすべてのスキルについて知りたいと考えるだろう。しかし、これはどこまで行っても「データサイエンティスト」という言葉が現実世界で使われるにあたって生じる副次的な問題でしかなく、仮にデータサイエンス力だけの換金レートが他との組み合わせと比較して著しく低かったとしても、「データサイエンティスト」という言葉に含ませてはならない。アーティストが売れるためにはピカソのようなマーケティング力が不可欠だが、アーティストのスキルを三カテゴリに分けた中のひとつが「マーケティング力」であれば、これはアーティストという言葉に本来備わっていない意味が付加されていると気づけるだろう。僕は徹頭徹尾、何らかの専門家についての「べき論」ではなく「言葉の使い方」の話をしている。(少し話を逸らしてみるが、「コンピュータサイエンス」という言葉にも同種の混乱が生じているように思える。「コンピュータサイエンス」はあくまでも「サイエンス」であって、その言葉が含まれる肩書きはプログラミング等の実務的能力――これは大学ではなく、どちらかといえば専門学校のような場で養成されるものである――を保証するわけではないはずなのだが、「コンピュータサイエンス」という言葉からはプログラム意味論やグラフ理論よりもそちらを連想するひとの多い印象がある。あくまでも印象、ではあるけれど。)

 もう一度念押ししておこう。ビジネス力やデータエンジニアリング力が不要だと言っているのではない。それは「データサイエンティスト」が持つべき能力ではなく、「データサイエンティストかつビジネスマンかつデータエンジニア」であるようなひとが持つべきスキルだ。そういうロールが存在することは良いことなのだが、本来「データサイエンス力」を問われる「データサイエンティスト」でそのロールを表現するのではなく、べつの言葉が用意されなければならない。自分勝手な認識で「データサイエンティスト協会」を名乗り言葉の意味を歪める行為は大変に有害かつ悪質である。

 僕の言いたいことはただひとつ、「言葉を濫用するな」。この一点に尽きる。「データサイエンティストとは、ビジネス・データサイエンス・データエンジニアリングのすべてについてある程度わかっているひとのこと」などと言うひとは、骨(あるいは目)を伝って返ってくるその文章に少しでもおかしさを感じないのだろうか。その知識が欠けているよりも、測度論的確率論を知らずに確率変数を「どのような値となるかが、ある確率法則によって決まる変数」(JIS より)などという支離滅裂な文言で説明したり、ヒュームやルイスなどのような因果論周辺の科学哲学を知らずに「相関関係と因果関係は違う」などと曖昧なままの言葉をこねくり回したりする方がデータサイエンティストとしては重大な問題であるというのに。

いいなと思ったら応援しよう!