見出し画像

【学生必見】外資系IT企業で働くデータサイエンストによるデータサイエンティストになるための最短学習方法

みなさん、データサイエンティストというお仕事はご存知だろうか?人によっては、「Excelなどで色々データを整理したり、分析したりする人」「AIや機械学習などの最先端技術を活用して世の中の複雑な課題を解決する21世紀最もセクシーな職業」など人によってデータサイエンティストの定義は大きく異なるが、共通して言えることは、「世の中の課題をデータを使って解決する」ことがデータサイエンティストがやるべき本質的な業務である。

データサイエンティストの業務やそれに纏わる勉強方法を説明する前に、そもそもなぜデータサイエンティストという仕事が生まれたのかを説明したい。「データサイエンス」は、1974年にデンマークのコンピュータ科学者であるピーターナウア氏の「Concise Survey of Computer Methods」の中で繰り返し「データサイエンス」という言葉が使われたことが始まりとされている。

ここから、コンピュータの性能が向上し、2000年頃からインターネットの到来と共に、Web上からビッグデータをマイニングすることが可能になり、世界中の人々の意思決定や社会自然現象をデータを通じて科学する「データサイエンス」というニーズが高まった。2007年にiPhoneが登場し、世界中の人が日常的にインターネットにアクセスするようになったことで消費者の行動データの蓄積が容易になった。2020年から5Gの環境設備の加速により、IoTやブロックチェーン、クラウド技術をベースとしたあらゆる人、もの、金がデータで繋がることで、アナログ社会からデジタル社会のシフトチェンジ急速に始まると考えられる。

上記の内容を一言で説明するなら、20年前にIT革命が起きたように、2020年からはデータ革命(AI革命)がほぼ間違いなく始まるということだ。少子高齢化、気候変動、人権問題などSDGsに関係するようなあらゆる直近の課題は、データを理解せず解決するのは難しい。なぜなら、私たち人間が今の社会問題を近代的なテクノロジーや政策、ビジネスで解決しようとするには、既存またはこれから急速に蓄積されるであろうビッグデータを扱える必要があるからだ。あなたが政治家、芸術家、エンジニア、ビジネスマン、弁護士であっても情報を正しく集めたり、分析し、目の前の現象(データ)を科学的に理解せずに自分のスペシャリティーを追求するには限界がある。恐らく、令和の時代にスマホが使えないで仕事をするのは殆ど不可能に近いのと同じぐらいに、今後データを活用できずに仕事をすることは、自分のキャリアの可能性を大きく縮めるだろう。

画像1

では、全ての人が情報工学やデータサイエンスに近いPhDを取れば良いかというとそういう話ではない。他のnoteで既にそれについて述べているので、データサイエンスが一般人にとってもなぜ重要なのか詳しく知りたい方はそちらで確認して頂きたい。ここで簡単に述べると、データとは、情報であり、情報の中身は、私たち人間の社会経済活動そのものであるが故に、普段の仕事の業務を知らずにデータを理解するのは非常に難しい。つまり、今あなた自身が何気無くやっている行動にデータ活用をするきっかけが眠っている。

理想的なデータを理解する方法としては、たくさんのデータに触れ、そのデータが何を示しているのかを理解するアプローチ(Convert from data to action)と、普段自分が仕事や研究をする際、これらの活動をデジタル化するとどのようなデータに変化するのかをイメージするアプローチ(Convert from action to data)の両方ができるようになるのがベストだと考えられる。前者は、研究者タイプが好む傾向があるが、一般的な学生やビジネスマンは後者から入り込むのも手だろう。

前置きは、これぐらいにして、データサイエンティストになるための最短学習方法をお伝えしたい。データサイエンティストとは、①社会問題を論理的に理解し解決する力、②統計学や機械学習といった情報科学を理解し、使う力、③ビッグデータを実際に分析やビジネス活用できるための基盤を構築する力、主に3つのスキルで構成されている。

冒頭でも説明したが、この仕事で重要なのは、「データを活用して、課題解決する」ことである。もう少しシンプルに3つのスキルを説明するなら、課題発見し、データを分析する土台を作り、実際に分析して出てきた結果を元に課題解決することだ。

画像2


例えば、ハンバーガーチェーンのレストラン経営者が東京に店舗を新しく出したいという依頼があなた(データサイエンティスト)に来たとする。まず、経営者が質問している課題を正しく理解する必要がある。もしかしたら、レストラン経営者は、20代から30代の若年層に対してハンバーガーを食べてもらうことが一番の利益に繋がると考えているかも知れない。ここで、あなただったらどのような情報を集めて、レストラン経営者が納得する新店舗を紹介できるだろうか。性別、年齢、顧客の趣味嗜好、レストランの外部環境、ハンバーガーの値段、顧客の年収、顧客がそのレストランを知る手段、考えればキリがないが要は、依頼主の意図を理解せずに課題解決はできない。

次に、上記で想定される情報を集めて分析できる環境を作るために、分析基盤をクラウドやその他のツールを活用して、整えなければならない。別にデータをエンジニアリングするのは、究極的に言えば、Excelシートに自分が欲しい情報を一箇所に集めれば別に問題はない。しかし、Excelなどでは、数十万単位のデータを集めたい、画像や動画などの非構造データも分析したいと思うと、Excelや自分のPC環境では限界があるので、クラウドやビッグデータ分析基盤環境が作れる方がベターである。そして、最後に自分なりの仮説を持って集めてきたデータを使って分析し、自分の仮説が正しいのか統計学や機械学習の知識を活用して、需要予測や顧客のセグメンテーションを行う。難しく感じるかも知れないが、要は経営者が納得するような分析結果があれば別に問題はない。

例えばだが、Excelでヒストグラムを作ることも立派なデータ分析である。しかし、レストラン経営者が本当にそのヒストグラムで表された結果が正しいかを問い詰められれば、統計学や機械学習の手法に基づいた科学的なエビデンスをベースとした説明が必要かも知れない。重要なのは、依頼主がその分析結果を持って納得してもらえるかである。なぜなら一般的な研究では、実験環境を整え分析結果が再現できる状態にしなければならないが、ビジネス領域では論文で書くような実験環境をきちんと整えられるわけではないので、厳密な統計解析をするのには限界があるからだ。しかし、統計関連の知識はあったことに越したことはない。

データサイエンスを学ぶ心得

データサイエンティストとして新しいキャリアをスタートするために一番大切なのは、データを活用して課題を解決したいと思うあなた自身の情熱である。私が大学生時代にオンライン教育プラットフォームの大御所Udemyのデータサイエンス教材を一つ共有したいが、これはあくまでも一つに過ぎない。しかし、この講座1つをやり遂げるだけのエネルギーがあれば、自然と統計学や機械学習、データに纏わる関連領域も興味を持っているだろう。

他の業種でも同じことが言えるが、継続すること以外に人生でプロフェッショナルなキャリアを歩むことはできない。データサイエンスとは、まだまだ未知な領域が多いだけあり、今後も専門性を身につけて、データから新しい価値を生み出せる人は少なくとも100年以上ずっと重要なスキルである事には変わりはないので、文系でも理系でもあなた自身が解決したい課題を見つければ、もうあなたはデータサイエンティストのたまごであると思う。

この記事が気に入ったらサポートをしてみませんか?