見出し画像

はじめて機械学習を使った業務を経験した話

はじめに

こんにちは。コグラフのデータアナリティクス事業部です。

自分が業務ではじめて機械学習を使用する機会があったので、今回は実務のスケジュール感や感じたことなどをまとめてみたいと思います。

私はこれまで機械学習に触れる機会があまりなかったため、苦労することはありましたが、得るものが非常に多かったと感じています。

日頃データ分析に興味をお持ちで、まだ実務経験のない方に読んでいただけると嬉しいです。

機械学習を使用した背景

とあるマッチングサービスを運営する企業で、会員(無料・有料含む)に対して、別の有料サービス登録の架電施策を行っておりました。そこでさらに効率的に架電するため、より熱量の高い会員に絞った会員リストを作成したいという背景がありました。

今回は、会員のデモグラや過去の行動ログデータから、LightGBMを使って、会員別に翌3日以内の有料サービス入会率予測を行いました。

スケジュール感

主に以下のようなスケジュールで進みました。

作業期間:8~9月の約2か月間
・予測モデル導入による効果見立て:約1週間
・予測モデル作成のための特徴量選定:約1週間
・データ抽出(クエリ作成・検証)と前処理:約1ヵ月
・予測モデル作成・検証:約2週間
・10月リリース

合間にマーケティングチームとデータ分析チームを含めた報告会を挟んで進捗共有しながら進め、リリース1ヵ月後に架電施策担当者に実際の効果検証をしていただきました。

使用した特徴量

デモグラ系
・性別、年収、居住地など

行動系
・過去3日間の「いいね」送信数やマッチング数
・過去3日間の有料結婚サポートサービスのLP訪問数・予約フォーム訪問数

また、これまでの集計ベースの分析からこのような仮説がありました。

【集計ベースでの仮説】
・会員がサービスに登録した直後は特に婚活意欲が高そう
・有料会員になった直後の会員は、婚活意欲が高そう
※婚活意欲が高い→有料結婚相談サポートサービスを利用しやすそう

【マーケ担当者の直感的な仮説】
・会員の婚活意欲は毎日変化する
→同一会員でも、特に婚活意欲の高くなる日に架電したい

そのため、以下のような特徴量を追加し、会員の会員登録~解約日までの1日ごとのレコードを持つテーブルを作成しました。
・会員登録後の経過日数
・その日時点で有料会員だったかどうか

以下作成したテーブルのイメージ図

無題

これを過去1年間分のデータから作成し、1会員1レコードとなるようにランダムサンプリングしました。

苦労したこと

1.想定していたデータの抽出が上手くいかない

・取得していると思われていたデータが、そもそも取得されていない
・各テーブル間のデータの整合性が取れていない、原因不明の欠損がある

モデル学習に使用する特徴量として、会員の年齢・性別・居住地といったデモグラ情報、会員の過去の行動データ、PUSH通知許可の有無などを使用する想定をしていました。

しかし、そもそもPUSH通知に関するデータがそもそも取得していなかったり、アプリ側とWEB側で紐づけできない行動ログがあったりで、原因調査に時間がかかってしまいました。

また、急遽使用するテーブルの差し替えが必要になったり、データ構造が複雑でマーケティングチームや分析チーム内で相談・共有するのに時間を要したり。。。

結果として、データの抽出・検証と前処理が最も時間を要したタスクになりました。ただ「データ分析の8割は前処理」とか言われるほど、抽出~前処理の工程はとっても大事。

↓こんな記事もあります。

2.なかなか高い予測精度のモデルにならなかった

学習に使用した抽出データの正例と不例が極端に不均衡だったためか、思ったほど高い精度のモデルになりませんでした。

特徴量重要度で最も寄与度が高かったのは、過去3日以内の有料結婚サポートLPへの訪問数で、会員登録からの日数や、有料期間内かどうかのフラグの寄与度は思ったほど高くはありませんでした。

ただ、予測モデルの予約確率を付与した会員のデータを眺めてみると、過去3日間の行動が多い人はスコアが高く、少ない人はスコアが低くなっていたので、少なくとも婚活のためにアクションをしている人ほどスコアが高くなっているようでした。

最終的には現場の分析チームやコグラフメンバーにも助けていただきながら、LightGBMのパラメータの細かい調整や特徴量の見直しを行って調整を行い、リリース後の検証では効果検証の結果、ROI(費用対効果):1.5で新規有料会員を獲得できました。

今回は現場から急遽予測モデルの作成を任せていただけたのですが、私の知見不足もあり、精度向上にあまり貢献できなかったのが悔しかったです。

最後に

これまでの業務では、データの抽出・集計や可視化のタスクが多かったのですが、データ抽出・可視化~機械学習モデル作成~リリースまで、一通りデータ分析の流れを経験できたのは嬉しかったです。

ただ、データコンペ等で触る綺麗なデータと違い、実際のログデータなどから予測モデルを作成することの難しさも同時に学びました。

データ分析に興味のある方募集中!

コグラフ株式会社データアナリティクス事業部ではPythonやSQLの研修を行った後、実務に着手します。
研修内容の充実はもちろん、経験者に相談できる環境が備わっています。
このようにコグラフの研修には、実務を想定し着実にスキルアップを目指す環境があります。
興味がある方は、下記リンクよりお問い合わせください。

Twitterもやってます!

コグラフデータ事業部ではTwitterでも情報を発信しています。
データ分析に興味がある、データアナリストになりたい人など、ぜひフォローお願いします!








この記事が気に入ったらサポートをしてみませんか?