見出し画像

エンジニアはデータサイエンスコンペティションを活用するべき理由 -Atraeとbitgritが共催したAIコンペ「#SwipeToSuccess」のすべて-

 皆さんこんにちは。DataGateway note編集部です。

昨年、株式会社アトラエのビジネス版マッチングアプリ「Yenta (イェンタ)」のインド展開に伴い、昨年AIコンペティション「#SwipeToSuccess」(以下「コンペ」という)を共催しました。本コンペでは、Yentaの精度を高めるため、AIアルゴリズムの向上に取り組みました。

この記事では、大変好評をいただいた#SwipeToSuccessコンペの工夫した点や、ポイントについて振り返りつつお伝えします。コンペを開催し優秀なデータサイエンティストに参加してもらうことは、会社内のデータ活用または改善するためのエンジニアリソースが不足している場合など、様々なニーズに効率的にアプローチすることができるので参考にしてみてください。

コンペティションが有利な理由

スクリーンショット 2021-05-18 1.15.45

AIソリューションを数名のエンジニアに委託する通常のモデルと比べ、AIコンペを開催するメリットは多々あります。弊社は世界中の約30,000名の優秀なデータサイエンティストが所属するコミュニティであるbitgritを活用し、様々な角度からの知見によってより良いモデル精度や技術知識を獲得することが可能です。ビッグデータにより競争率が高まる直近の市場において、AIモデル精度を向上することで大きな有利となります。

さらに、もう1つのメリットとして、商品やサービスをグローバル規模で展開したい企業にとって、アトラエ社の様にコンペを同時開催し発信することで、最先端知識・技術を持つデータサイエンティストやコミュニティにリーチすることができ、ブランドの知名度向上を図ることができます。

今回は、アトラエ社が提供するビジネスを目的としたマッチングアプリYentaのインド展開に伴いアルゴリズムを改良するべく、bitgritプラットフォームにて、世界中のデータサイエンティストへアトラエ社の実データを元にした課題を提供しました。

結果として本コンペでは、インド、日本、アメリカ等の優秀なエンジニアが参加し、優勝を賭けてアルゴリズム開発が進められました。この様に総合的知識を活用したコンペティションでは、より良いモデル精度や技術知識が期待できます。

また、フリーランスとして世界中のデータサイエンティストに参加を促すだけでなく、コンペ終了後の優勝者面談等により、転職希望のデータサイエンティストを採用することも可能です。

スクリーンショット 2021-05-18 1.17.48

スクリーンショット 2021-05-18 1.17.56

コンペティションの流れ

コンペティションは2020年8月24日から同年10月31日まで開催しました。

アトラエ社にいるデータサイエンティストと利用可能なデータやbitgritユーザーが興味を引くコンペ課題について打ち合わせを重ね、様々な角度から検討した結果、最終的にYentaユーザー同士の適合性(プロフィールの相性)を予測する「マッチングアルゴリズムの向上」に決定しました。

最初は「2名のユーザーがマッチするかどうか」を予測するアルゴリズムの開発を検討していましたが、更に「2名のユーザーがマッチした後に実際に会ったかどうか、また初対面がうまく進んだか」を予測する対象に加えました。最終的に2名のユーザーが実際に会ったか正確に判断するためには、各自でレビューを書いたかどうかを最適な方法として定義付けました。

ユーザーの相性を以下の4クラスに分類しました:
⓪=ユーザーAとユーザーBはマッチしなかった
①=ユーザーAとユーザーBはマッチしたが、実際に会っていない
②=マッチしたが、ユーザーAはユーザーBに否定的な評価を与えた
③=マッチし、ユーザーAはユーザーBに肯定的な評価を与えた

コンペ課題の決定後、下記のプロセスに従い、データを準備しました。

初めに、主にデータを次の2種類に分けました。1つ目は、ユーザーの個人データ(学歴、スキル、プロフィール等)2つ目はユーザーの相互データ(過去のスワイプ、レビュー等)です。コンペの事前準備として、利便性とプライバシーを考慮し、不要または余分なデータを削除しました。準備したデータセットを用いて、Yentaユーザーの相性を予測するアルゴリズムを実際に作成し検証しました。

このコンペで提供したデータは、大量且つ多様なファイルから構成されているため、色々な選択肢があり、ユーザーの相性を予測するために何が必要か判断することが重要でした。そのため、上位入賞者の共通していた点として、決められたデータでアルゴリズムを調整することとは対照的に、全員がアルゴリズムの作成前に行う「特徴量エンジニアリング」に大半の時間を費やしていました。参加者は、自身が作成した予測アルゴリズムを向上させるために、創造的且つ効果的な特徴を考える必要があり、結果、レベルの高いものとなりました。

コンペ開催から2ヶ月後、87.0207%のスコアを獲得し、1位に入賞したインド出身のデータサイエンティストNikhilさんと他3名がリーダーボードで上位4名として賞金が支払われました。

すべてのトップ参加者は、同じアルゴリズムであるLightGBMに基づいてソリューションを作成しましたが、特徴量エンジニアリングのステップがはるかに重要でした。優勝を受賞したNikhilさんも、特徴量エンジニアリングは大変重要であるとし「データの可能性が非常に高いため、データの性質を理解し、さまざまな特徴量の組み合わせを試すのに最も時間を費やした」と解説され、ユーザー間の年齢の違いと比率、 右にスワイプする比率などが、最も予測力があると考えました。

コンペ開催後の優勝者インタビューでは、1位のデータサイエンティストNikhilさんから『アトラエとYentaアプリユーザーのために価値提供ができて嬉しかった』との声をいただき、同様に、kaggleでグランドマスターのSenkinさんはコンペのデータセットで提供したグラフ特徴量が他社のAIコンペではあまり羅れなかったため、#SwipeToSuccessで珍しい形式のデータを用いて自分のデータサイエンスのスキルを成長させられたとの感想をいただきました。

【インタビュースクショ】Nikhil

【優勝者の写真 データサイエンティストNikhil「本コンペにて独自のデータセットを提供することにやりがいを感じ、モデルを作成する過程を楽しめた」という感想もありました。】

このようにコンペのスタイルを取ることで、世界中から優秀なデータサイエンティストのアルゴリズムの提案を受けることが可能になり、より高性能なアルゴリズムの開発を可能とします。今回は実際にYentaさんのAIアルゴリズムのコンペの事例を紹介させていただきました。最後に、主催アトラエ社のDS杉山様からのコメントを掲載します。

主催のアトラエ社のDS杉山様からのコメント

スクリーンショット 2021-05-18 1.21.28


今回上位入賞したモデルは非常に素晴らしいモデルばかりでした。世界トップクラスのデータサイエンティストが切磋琢磨、試行錯誤した結果のモデルは、磨き込みのレベルが高く、非常に感銘を受けました。モデルの構成も、勾配決定木と特徴量エンジニアリング中心のものから、GCNを組み込んだものも見られ、非常に多様なモデルが提案されました。それぞれのモデルのレベルや、そのバラエティを見ていると、社内で努力を重ねただけでは到底得られない結果を得られたと感じています。
また、上位入賞者の皆さんへのインタビューでは、私自身非常に勉強になりました。コンペティションは精度競争の単なるゲームと捉える向きもあると思いますが、実際に世界トップレベルの人々と話していて感じるのは、単なる数字あそびではなく、その試行錯誤の過程で、徹底してデータや課題に対して非常に深い理解を目指す、データや課題に対する愛情とも言えるような姿勢がありました。「上位入賞して賞金を得て終わり」というわけではなく、そのモデルが実際に利用されることで、自分の分析が実社会の価値につながることを強く希求する方ばかりでした。結局、世界のトップに立つ人は、本質的な試行錯誤を通し、世界への価値貢献をめざすマインドの人が集まるのだなと感じました。
最後に、DataGatewayさんの運営も非常に素晴らしかったと感じています。深い議論を通して課題を適切に設定することができました。『⓪ or ①の分類の精度で上位層が決まり、② or ③の分類で順位が決まるコンペになったら面白いですね』と話していたのですが、実際のコンペがその様になったようで非常に感動しております。leakもなく、shakeもない前処理やデータ分割を行っていただけたのも非常にありがたかったです。実際に自分で実行してみようと考えるとこれが非常に難しいのですがDataGatewayさんが頼もしく、非常に安心しておまかせすることができました。

現在、弊社では新たなコンペ(https://bitgrit.net/competition/12)を開催しており、今回はオンラインの動画共有プラットフォームにおける動画閲覧数を予測するアルゴリズムの開発を目指します。ぜひHPから最新情報をご覧ください。


【AIコンペティションのお問い合わせ】
社名:DataGateway株式会社
所在地:東京都目黒区上目黒3-4-3小金井ビル4F
代表者:代表取締役 向縄 嘉律哉
事業内容:データリテラシーを備えたデータサイエンティストによるコンサルティング、データ処理やAIアルゴリズム開発・提供。

この記事が気に入ったらサポートをしてみませんか?