見出し画像

データを使って何ができるかの哲学的考察

AIの登場で、データの重要性をよく聞くが、データを使って何ができるのか?今回はそもそもデータとは何なのか、というとこから根本的に哲学的な考察をしていきたい。

データを定義する

そもそもデータとは何か。

『精選版 日本国語大辞典』の「データ」の解説によると、次のようにある。


データ〘名〙 (data)
① 立論の材料として集められた、判断を導く情報を内包している事実。
② コンピュータで、プログラムを運用できる形に記号化・数字化された資料。「データ通信」など。

「判断を導く情報を内包している事実」というのが、本質にありそうだ。

 「事実」とは何か?

そもそも事実とは認識から得られるが、認識とは何か。

カントは、物自体(カオス)を、人間は独自の認識装置を使って認識すると説明した。

物自体の認識はできないが、人間の目や鼻などの認識装置を使って、人間による形式による認識はでき、その範囲では普遍的な認識ができるということを主張した。

物自体を何らかの認識装置を使って、シンボル化(言語化)して、文字などに固定したものをデータと呼ぼう。

 言語以前データと言語データ

データは、言語的な処理がされていないものと、されたものに分けられる。それぞれ、「言語以前データ」と「言語データ」と呼ぼう。

例えば、スーパーの監視カメラに、カゴをレジ台に置こうとする人の映像があったとしよう。その映像データは、そのままでは言語的な処理がなされていない。映像だけでは「人が物を購入している」という人間視点での世界理解はなされていない。それは生身の人間が映像を見て解釈をつけるか、AIなどで、ラベルを貼る作業が必要になる。

もしかしたら、めちゃくちゃ特殊な状況で、レジの前である男Aがお札に見える手紙を、想いを寄せる女Bに渡しているところかもしれない。これは「購入」ではなく、「手紙を渡す」行為であり、さらには

一方、Eメールなどの送信履歴は、「言語データ」だ。誰が誰に、何時何分にどのようなメッセージを送ったかが記録されている。

この「言語以前データ」と「言語データ」をまず区別しよう。

 間接言語データ

それはさらに、次のように「間接言語データ」も追加され、3種類に分けられる。

1.物自体 → 機械的な認識装置 → 言語以前データ 

2.物自体 → 人間 → 言語データ

3.物自体 → 機械的な認識装置 → 言語以前データ → 間接言語データ

監視カメラの映像などを見て、人間が「これは買い物をしている」などとシンボル化(言語化)したものが間接言語データだ。

 言語データに潜む原理的な偶然性

まず、前期ウィトゲンシュタインの写像理論を思い出そう。

現実の世界はひとつひとつの事実の集合である。 一方で言語は科学的な文の集まりである。 これらが1つの事実と1つの言語は鏡のように1対1の対応関係が成り立っている。 これを写像理論という。

ウィトゲンシュタインによれば、ある事態に対応する命題(言語)が真であれば、それは「事実」となる。命題は、細分化でき、その最小単位を要素命題という。「机の上にミカンがある」のようなシンプルな命題だ。

しかし、ウィトゲンシュタインが詰めきれていなかったことがある。

それは、要素命題が、現実(事態)を対応していることの真偽を確かめる方法がわからない、ということだ。

目の前に見えているものが「机」といえるのか?「上に」ってどういう意味?なぜ「ミカン」を1つの対象として捉える必然性があるのか?など疑おうと思うと沢山の疑問が湧いてくる。

(こうして、ウィトゲンシュタインは後期には、このような真偽を問う言語観から離れて、言語ゲーム論を展開する。)

つまり、ここで言いたいのは、物自体を言語化した時点で、そこには偶然性が含まれるということだ。目の前の現実を「机の上にミカンがある」と捉えることは、1つの言語化であり、それが正しい切り取られ方だという保証はない。

特に、対象が感情など心理的なものだとこの傾向はさらに強まる。「私は今、幸せ」というのも、それが物自体を正確に記述しているかどうかは確かめようがない。

 事実の背理

突き詰めて考えれば、言語以前データにも同様の偶然性が含まれる。それゆえ、もちろん間接言語データにも同じことがいえる。

では、改めて、事実とは何か?

物自体を正しく記述できれば「事実」となるが、それは、言語を使う時点で不可能だ。どこかに偶然性が潜む。

なので、我々が事実というものは、「まあ、人間なら誰が見てもだいたいそのように言語化するよね、という合意が得られるような言語化」といえそうだ。

言語以前データであれば、人間の解釈が入っていない分、事実に近いといえるかもしれない。(これも厳密に考えるとそうもいえないかもしれないが)

データを使って何ができるか

ここからは、このようにして取得したデータをどのように使うかを考えてみる。いくつかの利用方法がある。

 データを沢山とってみる

では、データを沢山とってみることを考えよう。

例えば、私に関するデータをできるだけ沢山とってみる。

「全て」取ることを考えよう。

生まれてから今まで、ずっとドローンが追跡して映像、音声を録画していたら、それは「全て」といえるか?

いや、嗅覚の情報も、触覚的な情報がないじゃないかと反論がくる。それはそうだ。

また、映像といっても、ある角度からの一部分しか撮れない。仮に10台のドローンが360℃から撮影しても、死角は残るだろう。それもそうだ。

つまり、「全て」というのは切りがないので無理だ。

では、できるだけ個人の24/7のデータを取得してみよう。

例えば、何時に起きて、どういう体勢で起きたか、ベッドのどちらから降りたか、寝室を出た時間は何時何分か、など事細かにデータが取れるとしよう。もちろん、日中の仕事や家庭での会話の発言内容やそのときの感情の起伏なども記録されている。

そうしたデータが取れたとして、何に使えるか?

 1.何かを予測する

一番わかり易いのが、天気予報だろう。

物自体から、沢山の非言語以前データを集めて、将来の天気を予測する。

何かの効果的な方法を見つけることも有る種の「予想」といえる。

ダイエットをしている人にとって、運動を毎日どれくらいしたか、何をいつどれくらい食べたかなどのデータを取ることは有用である。なぜなら、ダイエットという目標に向けて、それらのデータに基づき計画をよい方向に調整できるからだ。

複雑すぎるカオスな物自体の動向を予測するのが、データ収集の主な用途といえる。

 2.過去を思い出す

また、至極シンプルな使い方としては、記憶の補助としての使い方だ。

あれ、1995年に山田くんと食事したお店は何という店だったか?私はなんと発言したか?など、人の記憶では限界のある過去を引き出すことができれば、役に立つといえる。

 結局は、データの利用者次第

価値があることは、どのような来歴を持った「誰」が、どのような「状況」にあるかで変わる。

基本的には、課題ありきなのかと思う。

課題があり、その解決のために現実を解像度高く理解し、最適な解法を見つけるためにデータが必要になる。

 複雑すぎるので効果は限界がある

よく言われる通り、人の行動など生まれてから複雑な要因で発展してきたものはABテストができない。

仮に主観的に最高の状態にある人を探してきて、その人達の生い立ちを分析できたとしても、それは再現性がないかもしれない。

仮にそういう人がいっぱい増えたら、その人達の位置づけも変わるだろうし、そもそも、有る種の負け組がいたからこそ、その人達の幸福があったのかもしれない。

だから、変数が多すぎるものの予測は、いくら沢山のデータをとっても難しいだろう。

 3.合意形成のためのデータ

最後に挙げるこの利用用途が最も有益かもしれない。

データをいくら集めても、予測が難しい対象は山ほどある。

しかし、合意形成のためのデータ活用は我々にベネフィットを提供してくれる。

こうしたら「幸せ」になるという科学的な方法で得られた結論があれば、それを基に、社会のルールが動く可能性がある。

データは原理的に偶然性を孕み、有意義な予測には使えなくても、独断と偏見よりはマシだ。独裁者が何の根拠もなるやるよりもいい。

一方で、複雑な対象の予想には、独断と偏見で思いついたもののほうが優れている可能性もある。

なんだが、民主主義みたい。。

この記事が気に入ったらサポートをしてみませんか?