誰もが「データサイエンスを使えて当たり前」の時代はすぐにやってくる
データサイエンスとは、コンピュタープログラミングのできる人が、膨大なデータを分析し、データから何が言えるかを導き出すこと。その適応分野は広い。パンデミック、売上動向、環境問題、経済データ、セキュリティーなど、世界・社会のありとあらゆる分野だ。
データサイエンスのスキルを持つのは、現在では一部の限られた人だ。しかし私の予測では、10年後には世界中のほとんどの人が、データサイエンスを仕事や研究のためのツールとして使っているはずだ。もしかすると3年後かもしれない。データサイエンスを使えることは、今日誰もが当たり前のようにパソコンとインターネットで様々な情報を得られるのと同じくらい、大学での勉強、研究、職業選択に必要不可欠になると予測する。(30年前、ネット上の情報検索といえば、例えば特許や科学文献など、検索の専門家に頼むしか方法がなかった。)
なぜデータサイエンスが必要不可欠なスキルになると考えるか。
データサイエンスは、科学本来の手法への回帰を可能にする。科学本来の手法とは、仮説という先入観を持たず、データを真っ白な心で素直に解析することだ。すると誰もが考えもしなかった驚く発見につながる。それが新しい科学の進歩やイノベーションを加速することになる。
データサイエンスからの新たな気づきや発見が、ニュースですでに頻繁に取り上げられていることからも、お分かりいただけるであろう。
科学の本来の手法とは、データや現象を客観的に観察・評価し、データから仮説や結論を導き出すことだ。これをinductive reasoningと呼ぶ。
しかし残念ながら、多くの科学の分野において逆のことが行われている。仮説を立て、それを実験で検証し、仮説が支持されるか棄却されるかというサイクル、つまりdeductive reasoningだ。こうせざるを得ないのには、いくつかの理由がある。
1. そもそも直接観察できない(化学などのナノの世界が典型)
2. 十分なデータ点数を採取することが難しい。
3. 実世界に膨大な量のデータがあっても解析するにはコンピュータのパワーが不足しているから、点数を絞ったモデルでしか実験できない。
現在のコンピュータのパワーと、世界中に膨大なデータがある状況では、理由の2と3は既に消えている。
仮説からはじめるdeductive reasoningの危険性は、confirmation biasという罠に引っかかることだ。自分が立てた仮説に惚れ込んでしまい、それを支持するデータは見つけられるが、棄却するデータには盲目となる。これは意識して気をつけていても陥ってしまう罠であることは、多くのノーベル賞受賞者も言及していることだ。
仮説の検証ではなく、データから何が言えるのかを探す。これこそが科学本来のやりかただ。データサイエンスはそれを可能にする。
そして最後に、科学とイノベーションは、社会の仕組みや政治などにも応用されるべきだ。生命科学や宇宙物理学などの「理系」分野の専売特許ではない。これから必要なのは、社会学ではなく社会科学、人文学ではなく人文科学、政治学ではなく政治科学だ。そこで誰もがデータサイエンスを日常使いするようになる。
データサイエンスが研究や仕事に必要不可欠なスキルになる日はそう遠くはない。これに気づいたので、私も学び始めたところです。
Header image from: Grandjean, Martin (2014). "La connaissance est un réseau". Les Cahiers du Numérique 10 (3): 37-54. DOI:10.3166/LCN.10.3.37-54.
この記事が気に入ったらサポートをしてみませんか?