見出し画像

【初学者でもできる】社内での機械学習勉強会のやり方:コンペ実績6位

本記事は、Japan Digital Design Advent Calendar 2023 の23日目の記事になります。


三菱UFJフィナンシャル・グループ(以下MUFG)の戦略子会社であるJapan Digital Design(以下JDD)でMUFG AI Studio(以下M-AIS)に所属している松本 尭之(まつもと たかゆき)です。

本記事は、以下の方に向けた内容になっています。

  • 機械学習の初学者の方。

  • 勉強会の運営方法に興味がある方。

  • 機械学習の勉強に行き詰まっている方。

2022年12月に三菱UFJ銀行からJDDに出向し、「データサイエンティスト」という役割を担っておりますが、私自身は機械学習の初学者です。
というのも、学生時代にデータ分析を専攻していたわけでもなく、これまでの職務も全く関係ないものだからです。

そんな私が、現在JDDで行っている「機械学習の初学者向け勉強会」についてお話させていただきます。

実際に、勉強会のおかげもあり2023年度のMUFGデータサイエンスコンペにて、Basic 652人中6位を獲得することができました。
※MUFGデータサイエンスコンペとは、年に1回程度開催されるMUFG関係者のみ参加可能なコンペです。Advanced(上級コース)、Basic(初中級コース)の2コースに分かれ競い合います。(ご参考:2022年度の開催概要

なお本記事には、機械学習を解説する内容は含まれない点、ご了承ください。


機械学習勉強会のきっかけ・目的

結論から申し上げると、私の実力不足がきっかけです。

私は、理系の大学をでているものの、機械学習はおろか、プログラミングも一般教養レベルでした。統計学にいたっては、ほぼ忘れていました。
大学卒業後は、三菱UFJ銀行のシステム採用(現:システム・デジタル採用)として入行し、三菱UFJインフォメーションテクノロジー(以下MUIT)に出向。
その後、ご縁をいただき、JDDに出向させていただいております。

MUIT時代も、AIとは異なる職務に従事していたため、機械学習を業務で扱ったことはありません。

興味はあったため、独学でPythonを勉強しておりましたが、まだまだ未熟です。
そんな人間が、歴戦の猛者の中に飛び込むとどうなるか、想像に難くありません。
棒切れを片手に、ジャングルに飛び込むようなものです。

しかし、私としては、『データ分析の現場で使えるスキル』を身につけたい。
上司・諸先輩方に、その意思を汲み取っていただき始まったのが「初学者を講師とした勉強会」でした。

機械学習勉強会のやり方

以下、勉強会のやり方をまとめました。

教材

主に以下2冊を使用し、それ以外はQiita等の記事、論文、自身で用意した書籍を使用します。
テーマに合わせて、適宜変更しています。

テーマ

以下1テーマにつき1回として、勉強会を実施しています。
ただし、「回帰」「分類」はボリュームが多いので、小分類で2回にわけました。

$$

\begin{array}{|c|c|c|} \hline
\text{テーマ} & \text{中分類} & \text{小分類} \\ \hline
\text{不確実性} & - & - \\ \hline
\text{教師あり学習} & \text{回帰} & \text{線形回帰} \\
& & \text{ラッソ回帰} \\
& & \text{リッジ回帰} \\ \hline
& \text{分類} & \text{ロジスティック回帰} \\
& & \text{SVM} \\ \hline
\text{前処理} & - & - \\ \hline
\text{教師なし学習} & \text{クラスタリング} & \text{k平均法} \\
& & 階層クラスタリング \\ \hline
& 次元削減 & 主成分分析 \\ \hline
\text{ブースティング} & - & \text{XGBoost} \\
& - & \text{LightGBM} \\ \hline
\text{評価} & - & \text{決定係数} \\
& - & \text{混合行列} \\
& - & \text{可視化} \\ \hline
\text{ディープラーニング} & - & \text{ニューラルネットワーク} \\
& - & \text{CNN} \\ \hline
\end{array}

$$

参加者

  • 希望者は、誰でも参加可能。

  • 講師:

    • 初学者のデータサイエンティスト2名(交代で講師を担う)。

  • 受講者:

    • 中堅以上のデータサイエンティスト複数名(レビュアーとして1名選出)。

    • AIプロジェクトのマネージャー複数名。

    • 他チームのメンバー数名。

頻度

月に2〜3回実施。

進行

以下の通り、非常にシンプルです。

  1. テーマに対して、講師役が調査した内容を発表。

  2. 講師役は、初学者のデータサイエンティストが担当。

  3. 適宜、参加者から質問を受け、回答。

やり方の重要ポイント

特筆すべき点は、2つあります。

第1に『参加者』です。

前述の通り、どなたでも参加できるため、参加者は初学者が中心となっています。
そのため、近い目線での質問がでるようになり、講師の復習になります。
(中堅以上のデータサイエンティストにも、レビュアーとして参加いただきます。)

第2に『進行』です。

通常であれば、中堅データサイエンティストが講師を担当するケースが多いでしょう。しかし、どうしても受講者は受け身になりがちです。
そこで、初学者が講師を務めることで、主体的に学ぶことができます。

例えば、これまで触れてこなかった概念である「不確実性」を学ぶにあたり、教材を読み込むものの、全く理解できませんでした。
独学であれば、適当なネットの記事を読み、理解した気になっていたと思います。
しかし、「講師を担う」ということは、他者に説明できるほど理解しなければいけません。そこで、簡単に説明してくれる書籍や、より専門的な書籍を読み込むことで、自身の理解を深めることができました。
さらに、上記を通し「統計学の理解が浅い」という課題に気づけた点も、収穫でした。

もし「緊張するし、講師なんてやりたくないよ・・・」と思う方は、ぜひ講師を務める仲間を見つけてください。
私自身、一緒に務める方がいることで、とても助けになっています。

機械学習勉強会のメリット

勉強会のメリットとして、特に重要だと思ったものを2つ紹介します。
技術的に学んだことも多数ありますが、細かい話になるため、ここでは割愛します。

メリット1:現場で活きる知識を得られる

独学では得られないような、実業務・コンペに活きる知識が得られます。

質疑応答や議論の中で、中堅以上のデータサイエンティストの方から、
「こういう時は、このように対応している」
「ここはよく引っかかるので、注意が必要」
といったお話を伺うことができます。

どんな参考文献にも書いてない、貴重な生きたノウハウを獲得できる点は、大きなメリットです。

さらに、時には鋭い質問をいただきます。
これにより、見落としていた観点や現場目線でのテクニックを学ぶことができると同時に、メンタルも鍛えられるでしょう。
もし玄人から、「素人質問で恐縮ですが〜」という前置きが始まったら、覚悟してください。

メリット2:現場で求められるレベルを体感できる

本来実業務を経験しなければわからない、現場で求められるレベルを肌で感じることができます。

特に私が感じたのは、「前処理」をテーマに扱った勉強会でした。
「データ分析の9割は前処理」と言われることもありますが、私は「そんなに大事なのだろうか?」と思っていました。

しかし、諸先輩方の経験を伺う過程で、前処理の重要性に気付かされました。
コンペとは異なり、実務では必ずしもデータが整理されているわけではありません。さらに、前処理を雑に終わらせると、後続作業で誤った結果が得られることもあります。

そのため、データ読込・特徴量追加・型変換などなど、事あるごとにデータの内容をチェックするという話を伺いました。

この経験から、前処理は繊細に実施しなければならない、重要な作業だと体感しました。
初学者の場合、実務を経験するまでになおさら時間がかかるので、前処理の重要性に自身で気づくのは、何年も後だったかもしれません。

定性的な話にはなりますが、現場に流れる空気感・言動から、求められるレベルを体感できるという点は、成長のための重要なメリットでしたので、これまでの内容を踏まえ、以下2点を推奨します

  1. 参加者は、初学者を中心とすること。

  2. 経験者や、高いレベルの方に対して、初学者が講師を務めること。

さいごに

ここまで読んでいただき、ありがとうございます。

本記事の内容をまとめます。

  • 参加者を初学者中心とすること(レビュアーとして、中堅以上のデータサイエンティスト1名の参加推奨)。

  • あえて、初学者が講師を務める。

  • 勉強会を通じて、現場で活きる知識を得られ、求められるレベルを体感できる。

繰り返しになりますが、勉強会での学びを活かすことで、素人の私がMUFGデータサイエンスコンペで6位/652人になることができました。

この結果を得るにあたり、「現場で通じるデータサイエンティストに求められるレベル」を肌で感じられたことが、なによりもコンペに臨む原動力になったように思います。
今後とも、学びを実践することを通じ、腕を磨いて参りたいと思います。

本記事を読まれた方にとって、機械学習を学ぶ一助になると幸いです。

なお、様々なアドバイスをくださったデータサイエンティストの方々は、以下のような記事を投稿しているので、要チェックです。


Japan Digital Design株式会社では、一緒に働いてくださる仲間を募集中です。カジュアル面談も実施しておりますので下記リンク先からお気軽にお問合せください。

この記事に関するお問い合わせはこちら

M-AIS
松本 尭之