見出し画像

データサイエンスにおけるデータとは何か?

データサイエンスという言葉を聞いたことがある人は多いと思う。

データサイエンスとは,データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチのことである。

近年,企業のデータ活用を推進する上で,「データサイエンティスト」が注目されている。


このように,世間ではデータという言葉がよく用いられるが,その言葉が意味するところは多種多様である。そこで,今回の記事では,データとは何かを考えて,整理した。


データとは

データとは,一般的に,言葉や数字などで表現された資料という意味合いで使われているだろう。このデータと言われているものには,共通点がある。それは,ある目的を達成するために,あらかじめ設計された条件に基づいて収集されたものということである。目的もなく集められただけの情報は,データとは言いにくい。

つまり,データとは,目的(仮説)に応じて集めたものである


心理学におけるデータ

心理学は,社会科学であり,経験科学であり,実証科学であると言える。つまり,心理学では,データを扱う。心理学では,データは,言葉や数字で表現されることが一般的である。特に,数字で表現されたデータを用いることが多いが,それは,心理学が,人の心理状態や行動の特徴を客観的に知るために,ある現象について説明を行うことを目的としているからである。言葉で表現されたデータは,条件を設定すればデータとして活用できるが,多義的な要素が多く含んでいるため,解釈や説明の際には,誤解が生じる可能性が大きいことを心得ておくべきである。


データの種類

データは,「質的データ」(定性データ)と,「量的データ」(定量データ)に大別できる。以下に,「質的データ」と「量的データ」それぞれの特徴を箇条書きする。

【質的データ】
・対象の属性の性質や内容を示したもの
・数量という概念で表現しにくい
・言葉や文字で表現している
・観察や考察によって表現しているもの
・多数の人の思考や行動が集合したもの(流行語など)

【量的データ】
・対象の属性を数量によって示したもの
・数量という概念で表現している
・ある基準によって,属性の特徴を計量できるものにして表現している
・方法論的な制約がある(数字で表現できない現象がある)
・数字で表現したことが現実を適切に反映していないかもしれない


データ評価としての基準

データ評価としての基準は,以下の書籍が参考にすると,6つの条件に要約できる。

1. 適時性
 適切な時期や周期に得られているか否か

2. 代表性
 母集団を正しく表現しているか否か

3. 妥当性
 目的を達成できているか否か

4. 信頼性
 ほかの人が同じような方法で収集しても同じ結果を再現できるか否か

5. 精密性
 対象の属性を偏りなく把握できているか否か

6. 比較性
 ほかのデータと比較健闘した時に,共通点と相違点を発見できるか否か 


データによってデータ解析の方法が異なる

質的データ」と「量的データ」では,使用できる統計手法が異なる。データの特徴を理解して,適切な統計手法を選択し,データ解析をする必要がある。


この記事が気に入ったらサポートをしてみませんか?