現役データサイエンティストの業務(データサイエンス力編)

こんにちは
今回はデータサイエンス力を用いた業務内容を記します。
データサイエンス力といえば、統計学や機械学習を駆使するイメージを持たれている方も多いと思います。

実際にどのような業務を担っているのか見ていきましょう。

統計学

昨今ではビッグデータを解析することも多いですが、少数のデータの解析をすることもあります。ビッグデータやスモールデータどちらも、データに関して探索することも必要です。その際には統計学を活用していきます。まずは、データの特徴量ごとに基本統計量を算出します。
基本統計量を算出することで、データの全体の傾向や散らばり具合を調べることができます。
あとは、統計的仮説検定を用いて有意差を調べることもあります。
A/Bテストの結果に対して優位差があるか調べたことがある方もいると思います。

機械学習

データサイエンスといえば、機械学習を駆使して知見を得るというイメージが強いです。機械学習を用いた解析はもちろんあります。最近だとAutoMLなどで様々な機械学習アルゴリズムを網羅的に使用して、各々の評価指標を比べて改善していくことも多いです。
機械学習にはデータ数や画像、動画の場合は演算時間も必要で、クラウドサービスやGPUが搭載されている計算機を使用されている方もいると思います。
そして、交差検証を用いて自分が作成した学習モデルの精度を確かめて推論を行うよう試行錯誤します。最近では機械学習アルゴリズムのパラメータを最適化するためにoptuneを使用することが多いです。
また、その試行錯誤の中でデータの前処理も大変重要です。


前処理(特徴量エンジニアリング)

前処理がデータサイエンス力を用いる業務で1番時間を割くことが多いです。前処理で行うことを下記に記します。

取得したデータに欠損値が出てきます。例えば、センサーなどの測定器を用いて測定したデータなどで見たことがある方も多いと思います。欠損値については、様々な対応があり、欠損しているデータを一式削除することもあります。あるいはアルゴリズムを用いて補完することもあります。

前処理に関しては、今後の記事でピックアップしていこうと思います。

論文を読む

統計学や機械学習アルゴリズムの論文を読むことで最近のアルゴリズムを調査することが必要です。論文で提案されているアルゴリズムについて数式などで記載されているため、微分積分、線形代数、確率統計などの分野についても理解が必要です。
また、論文のアルゴリズムはGitHubなどに投稿されていることもあるため、ソースコードを読むことで理解を深めていくのも良いと思います。英語で読むのが大変でしたが、慣れるまで英文法の勉強もしていました。

プログラミングで統計や機械学習を行う

データサイエンティストが使用するプログラミング言語はPythonやRが多いと思います。こちらはデータエンジニアリング力も発揮する必要があります。
情報科学系の知識をフル活用するためにもプログラミングを行って統計解析や機械学習を実装、運用していきます。

データサイエンス力を用いた業務内容についてでした。
統計や機械学習アルゴリズム、データ解析に必要な特徴量エンジニアリングなど学ぶことも非常に多いです。
ぜひ皆さんもデータサイエンス力を高めてみてください。
ここまで、読んでいただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか?