見出し画像

翻訳としてのデータ分析#49 適切に命名せよ。概念とデータのギャップを埋めよ

原文抜粋 : 13万語中の31語

作品のなかでその単語の反復がある程度目立っている、気になる、意味ありげである、という場合にはたしかに同じ訳語を当てるのが望ましい

『ぼくは翻訳についてこう考えています -柴田元幸の意見100-』より

データ分析に置き換えて考える

データ項目や指標の命名は、分析の腕の見せ所の1つだと思っている。「どういう概念を、データでどう置き変えたか」を直接表すからだ。

心理学では序盤に「構成概念」という単語を習う。論文も構成概念を定義することから始まりやすい。「私はこれから〜という人為的な概念を扱います。それは〜というものです」と宣言してから、論を展開する。

例えば以下のような感じだ。精緻に定義する必要があるため、難解になっていることが多いと思う。

本研究の関心は,特性的なシャイネスにあり,“特定の社会的状況を越えて個人内に存在し,対人不安という情動状態と対を越え個人内に存在し,対人不安という情動状態と対人抑制という行動的特徴を持つ症候群” と定義しておく(相川,1991)。

栗林 克匡, 相川 充, シャイネスが対人認知に及ぼす効果, 実験社会心理学研究, 1995-1996, 35 巻, 1 号, p. 49-56

そして僕が考えるに、実務における
 ・データを収集する
 ・データベースを整える
 ・分析をする
という、データ分析のどの過程においても、この構成概念を扱う部分が含まれている。

分析官は、収集したデータ項目や、分析結果のデータ項目に命名する。名付けるということは、概念を規定することである。そして規定した概念を正しく表せるように、データ収集&分析し直すというループが続く。

データ分析というのは、知りたい概念について考え続けることと、概念とデータのギャップをどう埋めるかについて考え続けることだと思う。そして適切に概念を扱うためには、適切な命名が必要だ。いい分析のためには、いい命名をしなくちゃならない。

もちろん全てのデータに対して、細心の注意を払う必要はない。ユーザーIDのフィールド名は反射的にuser_idにしておいて多分問題ない。ただし、みんなで運用する指標や、商品名のように沢山の人の目に触れる数字項目は、実用性を満たすように新たに名付ける必要がある。

新卒で入った会社では「倒産予測値」というサービスを扱っていて、そのものずばりで、社員にもお客さんにも馴染んでいてよかったなと思う。「ジェイスコア」より僕は好きだ。

嘘か本当かわからないけど、フォン・ノイマンがシャノンに対して「この新しい概念をエントロピーと名付ければ、議論で優位になれる。誰もわからない言葉なんだから」と言ったという逸話がある。

確かに議論には強いかもしれないけど、そういう名前の指標を、上層部の前でプレゼンして了承を得る自信は僕にはない。

学術的な専門用語を用いると、覚えにくい。
偉い人が呼んでいる言葉を使うと、誇大表示になる。
流行りに乗っかると、魂を売り渡した気になる。
過不足なく、キャッチーに命名するのは難しい。

難しいけれど、その難易度に向き合うことが、データ活用を推進することだと僕は考えている。1つでも多くの概念を、名前を、定着させられるように働きたい。

サポートされた者たちから受け継いだものはさらに『先』に進めなくてはならない!!