見出し画像

新卒データサイエンティスト半年の学び10選

こんにちは。エムスリーデータ分析グループ所属、21年新卒入社の今井です。私がエムスリーに入社してもうすぐ半年ということで、実際にデータサイエンティストとして働いた学びを10本紹介しようと思います。主に若手に向けて、Tips集として読んでいただけると幸いです!


1. 【データ確認】MTG時もしくはその日のうちに必要な情報を集める

書いてみると基本中の基本ですが、すごく重要な点だと思います。分析依頼後すぐに着手できる場合はそこまで問題にならないですが、日が空いてから足りない情報に気が付くと大変です。担当者へのメール文面を考える時間、返信を待つ時間など当初想定していない工数が発生するため急ピッチで分析をする必要が出てきてしまいます。

2. 【データ確認】データが正しいか確認する

これも当然の作業ですが、実際にデータがあっているかどうかを確認することは大変です。すべてのデータは間違っている or 目的にそぐわない集計をしている可能性があるため、一度手元で単純集計を行ってみて、自身が理解している点と矛盾がないかを確認すべきです。

3. 【ヒアリング】目的と手法を分けてヒアリングする

分析依頼のMTG時、分析の目的と具体的にやってほしい分析内容を切り分けてヒアリングすることを心掛けましょう。依頼してくださる人は非分析者であることがほとんどです。ですので見落としている前提条件やデータの都合上できないこともあるため、依頼された分析をそのまま行っても欲しい示唆が得られないことがあります。目的を理解したうえでの分析設計を心掛けましょう。

4. 【資料作成】分析と資料まとめを交互に行う

分析完了後に資料を作成していると途中で置いた仮定や、集計期間などの記載を忘れることがあります。記録、整理の意味も込めてこまめに資料化していきましょう。

5. 【資料作成】資料が完成したらちょっと間をあけてから確認する

資料作成が完了したタイミングは大体の場合、達成感と疲労感に包まれています。この状態で資料をチェックすることは非常に危険です。

資料作成直後の心理状態
例1. 分析をやり直す必要があるミスを発見したとき
 「最終的な結果にそこまで大きな影響はないだろう…」
  →疲労で修正する気力が残っておりません
例2. 前提条件などの記載のチェック
 「これだけちゃんとやったんだから間違えてはいないだろう...」
  →達成感により一目見たらわかる記載間違いを発見できません

このように資料作成が終わったタイミングでの即チェックは意味をなさないことが多いので可能な限り避けましょう。私は翌朝がベストタイミングだと思います。

6. 【分析ツール】すべてをpythonで行わない

最後の一手はExcelで作業し、再分析がすぐにできるようにしましょう。分析結果が狙い通りのものでなかった場合、その原因の特定のために切り口を変えて似たような分析を回すことがよくあります。この場合、最後の集計の条件を変える、といったような簡易な変更が多いですが、すべてをpythonで行っていると値をExcelに持ってくる手間が発生してしまいます。ある程度Excelで作業できるようにしておくと資料化のスピードが上がり効率的です。

7. 【分析ツール】書き捨てのコードを減らす

言わずもがなですが、書き捨てのコードはミスの温床です。また再分析する際に困ることもしばしばあります。なるべく再利用するつもりでのコード作成を心掛けましょう。

8. 【分析ツール】jupyter notebookを使うときは一つの変数を複数のセルで編集しない

jupyter notebookを使うときの基本作法のようですが恥ずかしながら最近までそこまで意識できておりませんでした。各セルが独立に動かせる状態だと再分析などがしやすいため、一つの変数を複数のセルで編集することはやめましょう。

9. 【pandas tips】pandasのmeanとnumpyのmeanを混ぜない

pandasのmean関数は欠損値を存在しないものとして扱い、平均を計算します。それに対して、numpyのmean関数はnanを返します。何も考えずpandasのmeanを使っていたら列ごとに分母の数が異なっていた、という現象が発生するのでpandasで計算を行う際は欠損値の処理を忘れずに行いましょう。

10.【pandas tips】 df.fillna(0)を安易に行わない

pandasで分析を進めていて欠損値にぶつかったとき、安易に0埋めするのは危険です。欠損値と0で持つ意味合いが異なる場合がありますのでなぜ欠損値になっているのかを確認しに行きましょう。

終わりに

いかがでしょうか?これからデータサイエンティストを目指す方はこのTipsを参考にしていただけると幸いです!

エムスリーデータ分析グループでは、インターンを募集中です。興味がある方はぜひ下のリンクからご応募いただければと思います!
https://jobs.m3.com/data-scientist/