データサイエンスって_何ですか__と聞かれてすごく困ったので_考えてみた

「データサイエンスって何ですか?」と聞かれてすごく困ったので考えてみた

近年、「データサイエンス」という言葉をよく聞くようになりましたが、「データサイエンスって何ですか?」と聞かれて「そういえば何なんだろう・・・」とちょっと困ってしまったので、自分自身の勉強もかねて考えてみました

ちなみに普段は、様々な企業のデータ・アナリティクス関連の戦略構築や分析支援をやっています。

データサイエンスに関して、いろいろな文献を見ると、だいたい3つのことが言えそうだということに気が付きました。

その3つとは、

①統計学や機械学習といった理論を活用して、データから何かを分類、予測、最適化する

②扱うデータはPOSデータのような構造化されたデータだけではなく、画像や音声といった非構造化のデータも対象となる

③データサイエンスを実施する前提として、データベースやクラウドシステムといったITシステム・ツールを利用する

です。

上記の3つを1つ1つ考えてみたいと思います。

------------------------

①統計学や機械学習といった理論を活用して、データから何かを分類、予測、最適化する

「データサイエンス」を題材にした文献の中に、「統計学」あるいは「機械学習」といったことがまったく書いてないものはありませんでした。

よって、統計学や機械学習を用いないデータ分析は「データサイエンスではない」と考えてよいのかもしれません。

データサイエンティスト協会が定義している「データサイエンティスト スキルチェックリスト」(2019年11月18日時点での最新版はver3.00)では、データサイエンティストが持ち合わせるべきスキルとして、

・ビジネス力
・データサイエンス力
・データエンジニア力

データサイエンティスト協会 スキルチェックリスト ver.3 
https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf

という3つを挙げており、「データサイエンス力」に関しては、
・基礎数学
・予測
・検定/判断
・グルーピング
・機械学習技法
・パターン認識
・最適化

といったようなスキルのチェックがあり、「データサイエンス力」だけで271個もチェックする項目があります。
※ちなみに、「ビジネス力」は113個、「データエンジニア力」は144個の項目があり、すべて合わせると528個ものチェック項目があります。正直なところ、これをやるだけで1週間くらいかかりそうな気がします・・・

つまり、データサイエンティスト協会も「データサイエンティストに必要なもの」として「数学」「統計学」「機械学習」といったことを求めているわけですから、それらを用いないようなデータ分析はデータサイエンスではないのでしょう。

従来の「分析」といえば、いわゆる「定量分析」や「定性分析」と呼ばれるような、数値化した情報を分析するのかどうか、物事の大小を比較するのかどうか、物事の階層性や論理を分析するのかどうか、といったことが中心でしたが、多種多様なデータを扱う必要がある時代になってきたことで、「分析」ということの意味や役割も少しずつ変わってきているのでしょう。

②扱うデータはPOSデータのような構造化されたデータだけではなく、画像や音声といった非構造化のデータも対象となる

これも、データに関するような仕事をしていない方にとっては、「よくわからん」となってしまう原因の1つのような気がしています。

データの専門家が、「それってつまり構造化データですよね?」とビジネス側の人たちに伝えても、ほとんど理解されないのではないでしょうか。

データサイエンスというものは、どうやら今まで企業が扱ってきた会計系や財務系、顧客情報というようないわゆる「基幹系」と呼ばれるようなシステムに保管してあるデータだけではなく、商品のレビューやSNSのつぶやきのような文字データや、人間や動物の顔といった画像のデータまで扱うようです。

※「構造化」「非構造化」というのを言葉で説明するのが難しかったので以下のような図にしました。

データの種類

またまた、ここでも「データサイエンティスト スキルチェックリスト」を見てみると、

・正規化手法(第一正規化~第三正規化)を用いてテーブルを正規化できる
・データベースから何らかのデータ抽出方法を活用し、小規模なExcelのデータセットを作成できる
・Webクローラー・スクレイピングツールを用いてWebサイト上の静的コンテンツを分析用データとして収集できる
データサイエンティスト協会 スキルチェックリスト ver.3 
https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf

ということが書いてありました。
(スキルレベルは「3つ星(★★★)」が最大で、これらは全部「1つ星(★)」レベルです。

つまり一言で言ってしまえば、「データサイエンティストはどんなデータにも対応しなければならない」ということです。

もし、一般的な企業で、ITの専門家でもなんでもないような普通のビジネスパーソンが上記の3つを社内でやり遂げたとしたら、「ITの神」として崇拝されるようなレベルのことです。

しかし、現実的には「どんなデータでも扱える」という人はほぼ存在しないと考えてよいと思います。

大きな企業であるほど構造化データから非構造化データまで多種多様なデータを持っていますが、データサイエンティストがそのデータを全部分析できるかというと現状ではかなり困難でしょう。

社内に50人、100人とデータサイエンティストがいれば可能かもしれませんが、データサイエンティストは海外でも国内でも数万人規模で圧倒的に不足していると言われていますし、「SQLを書ける人(それほど高度なコーディングは求めない)」を探してもなかなか見つからないというのが現状ですから、「データサイエンスって恐ろしい」と感じてしまいました・・・

③データサイエンスを実施する前提として、データベースやクラウドシステムといったITシステム・ツールを利用する

「データを分析する」ということだけを考えれば、極端な話、「紙とペン」さえあればできてしまいます。

例えば、マーケットにおける自社商品が占める相対的なポジショニングを知りたい、ということであれば、「市場シェア」を計算すれば分かります。

市場シェアの計算は、「(自社の販売金額÷市場全体の販売金額)×100」です。(金額ではなく「数量」などを使う場合もある)

自社と市場の販売金額を分かっていることが前提ですが、この計算をするだけであればExcelはおろか、電卓も必要ないでしょう。

ではなぜデータサイエンスにはデータベースやクラウドといったITシステム、ツールが必要なのでしょうか。

理由として考えられるのは

1. データ分析を行うために「データ」を収集、蓄積、処理、可視化する、といった作業を行う必要があるから
2. 高度な分析を行うための計算ロジックやアルゴリズムがツールの中に入っているから
3.データそのもの、あるいは分析結果といったものに対してアクセスしやすくしたいから

といったあたりでしょうか。

扱う商品にもよりますが、基本的に何かビジネスをやっていて「お客さんがひとりだけ」ということはないと思います。

スーパーマーケットやコンビニエンスストアなどのような小売業であれば1日に何万人というお客さんが買い物をしたデータが発生します。

そうした中で、数万、数千万、数億といったデータを、すべて「手作業」で集めて記録したり、ましてそれらを人間の頭の中だけで計算するというのは不可能です。

データを活用するにあたって人間にはできないような、大量データの収集や、それらを計算したり可視化したりすることを機械がやってくれるのです。

画像2

また、クラウドサービスが当たり前になる以前は、企業は自社内や自社が契約するデータセンター内にデータ分析基盤を構築して運用していました。
ところが、ビッグデータ時代になると、各所に分散したデバイス、サービスから収集される膨大なデータを統合的に管理する必要が出てきました。
そのため、インターネット環境があればどこからでもアクセスできるクラウドサービスを活用して分析基盤を構築することが増えてきました。
時間や場所に縛られない働き方が少しずつ広まってきていることも、こうした動向に影響しているかもしれません。

データサイエンスといえば「R(アール)」や「Python(パイソン)」というプログラミング言語を使用することも一般的になってきました。

従来からデータ分析でよく使用されているExcelなどの表計算ソフトでもある程度の分析は可能ですが、大量のデータをもとにして高度な統計分析や機械学習といったことをするためには、上記のようなプログラミングが必須になっています。
(Excelを使ってクラスター分析やディープラーニングといったこともできるようですが、あえてExcelでやるのであればRやPythonを覚えたほうがいいかもしれません・・・)

以上のように、データサイエンスの実現のためには様々なITシステムを活用していく必要があるのです。

------------------------

今回のまとめ

今回は、「データサイエンスって何ですか?」と聞かれて、自分自身も明確に答えられず困ったので、色々に文献から共通して言えそうなことを3つピックアップしました。

その3つは、

①統計学や機械学習といった理論を活用して、データから何かを分類、予測、最適化する

②扱うデータはPOSデータのような構造化されたデータだけではなく、画像や音声といった非構造化のデータも対象となる

③データサイエンスを実施する前提として、データベースやクラウドシステムといったITシステム・ツールを利用する

です。

①では、単純な集計やグラフ化といった分析では「データサイエンス」とは呼べず、統計学や機械学習を活用してデータを分析するのがデータサイエンスの主流になっていると言えます。

②では、データサイエンスは、従来から企業が持っていた基幹データのみならず、センサーデータや画像データのような多種多様なデータを対象として発展している、とまとめました。

③では、データ増大への対応や高度な分析手法の実施にはITシステムの力を借りる必要があり、ITなくしてデータサイエンスは成り立たない、と述べました。

いかがでしたでしょうか。

色々なところで「データサイエンス」という言葉は聞くけど、なにか「モヤっ」としてよく分からない、という方のお役に立てれば幸いです!

今回も最後までお読みいただきありがとうございました!

■社内のデータを活用したいが、何をしていいのか分からない・・・
■ビジネスの課題に対してどのようにデータ使えばいいのか思いつかない・・・
■なんとなくデータの分析はやっているが、経営に対してインパクトを出していない・・・
■データを扱える人材が社内にほとんどいない・・・
■データサイエンティストを採用したいが、どうすれば採用できるの分からない・・・
■AIの導入にも興味はあるが、AIを使って何をしたいのかはっきりしていない・・・
■データに関することは専門性・機密性が高く、相談できる人がいない・・・
■ベンダーに丸投げすると自社で主導権が持てない・・・

というような方、一般的にデータ活用について考えてみませんか?
↓↓↓↓

おまけ:データサイエンスを学べる講座、学校

今回はおまけとして、社会人向けのデータサイエンスを学べる講座や学校を調べてみました!

・データミックス データサイエンティスト育成コース

データミックス社が主催の「データサイエンティスト育成コース」は、
・ブートキャンプ(6週間)
・ベーシック(6週間)
・アドバンス(6週間)
・インテグレーション(5週間)
の計23週間でデータサイエンスに必要とされる統計学、機械学習、プログラミングを学んでいきます。
コースを受講するために審査があったり、卒業するための口頭試験があったりとかなり本格的です。
その分、受講料も675,000円(税抜)と決して安い金額ではありませんが、経済産業省の認定を得ているなど、かなり濃い内容のようです。

・東京大学エクステンション株式会社 データサイエンススクール

東京大学の100%出資で設立された企業が実施するデータサイエンススクールで、2019年から開校しました。

魅力はなんといっても「東大ブランド」ということで、東大で構築されたカリキュラムや東大講師陣が直接教えるということで、社会人にとって非常に魅力的な講座です。

コースが4つに分かれており、経営層向け、ビジネス実務者向け、技術者向け、というようになっています。
経営層やビジネス担当者の方は、自分でプログラミングができるようになったりする必要性は低いと思いますので、「事業マネジメントコース」などを受講されるとよいでしょう。

・AIジョブカレ

エッジコンサルティング社が運営するAIジョブカレは現役で活躍するデータサイエンティストやエンジニアから、データの前処理やアルゴリズム、パラメーターチューニングなどを学べる、AI専門技術の教育講座です。

講座としては、機械学習講座、ディープラーニング講座、python数学講座の3つがあります。これからデータサイエンスを学ぶ人には「python数学講座」がおススメです!

この記事が気に入ったらサポートをしてみませんか?