見出し画像

Kaggleでコンペを開催する方法について調べてみた

こんにちは!エムスリーデータサイエンティストの日野です。
みなさんはKaggleに参加したことはありますか?データ分析グループでもKaggleに参加して技術力をあげようという取り組みは行われており、私を含め、実際に参加したことがあるメンバーが数人在籍しています。今日はコンペを開催する側に回ったときになにを考えなくてはいけないのかについて簡単に調べた結果を紹介していきたいと思います。

Kaggleとは

ご存知の方も多いと思いますが、Kaggleとはデータ分析コンペのプラットフォームで、世界中の企業や研究機関から出題された様々なコンペが開催されています。参加者は与えられた課題に対して機械学習の精度を競ったり分析結果のレポートを提出することになります。上位に入るとメダルや賞金が貰え、それを目指して参加者は日々格闘しています。
過去、日本企業からもリクルートやメルカリがコンペの開催を行っています。

開催側のメリット

コンペ開催側のメリットは大きく2つあります
1.自社の機械学習プロダクトの精度を上げる:世界中の優秀なデータサイエンティスト達がモデル構築に取り組んでくれ、その結果を用いて自社のプロダクト改善を行うことが出来ます。
2.採用活動に用いる:上位入賞者と直接コンタクトをとり、参加者に対するリクルート活動を行うことが出来ます。また、実際のデータを見てもらうことで興味をもってもらうことにも繋がります。参加者以外に対してもコンペを開催することで知名度アップを狙うことが出来ます。

参加にあたって

基本的な情報は
https://www.kaggle.com/static/slides/meetkaggle.pdf?Host_Business
に掲載されています。
以下に上記スライドから開催に必要な主要項目を記載します。(2021/9/6現在)
・コンペに出題する問題:単一な変数を予測することが出来る設計にする必要があります。
・予測に用いるデータ:必要なデータをクリーニングしてKaggleの運営側に渡す必要があります。また、テーブルデータの場合は数万~数十万行ほどのデータがあったほうが良いとのことです。
・コスト:企業開催コンペの一般的な費用は$85,000~$200,000程度のようです。Kaggleの運営側に開催準備を手伝ってもらうことが多い場合や、賞金設定によって費用は上下します。なお、賞金設定は最小$25,000とのことです。

その他検討事項

・そもそも問題として出せるデータがあるか?
→個人情報の観点で問題がないか、自社のデータがきちんと保存されているか、機械学習で解ける問題があるのかなどをまず検討する必要があります。また、せっかくKaggleで行うなら精度向上でビジネスインパクトが狙える問題設定にしたいとも考えられます。
・Kaggleでやる必要があるのか?
→採用目的で行いターゲットを日本人のみに絞る場合はSignateなども候補にあがるかと思います。
・採用目的の場合コンペ参加者が求めている人材にマッチしているのか?
→データサイエンティストといっても実際の業務内容は企業によって様々な形となっているのが現状だと思います。モデル構築部分に特化した人材を求めているならKaggleは最適な採用方法の一つだと考えられますが、エンジニアリング能力を重視するのか、コンサル的な能力を重視するのかなどでマッチしているかは変わると考えられます。

最後に

今回はKaggleでコンペを開催する場合に何を検討しなくてはいけないかを調査しました!データ分析グループでは機械学習を用いた社内プロダクトの開発やユーザー分析、施策の効果検証などデータ分析に関する様々な問題に日々取り組んでいます。具体的な業務内容は本noteや採用HPでも紹介しているので気になる方はぜひチェックしてみてください。興味を持った方がいればご連絡いただけると嬉しいです!