Recommendation Industry Talks #2 参加レポート
2024/4/11にMeetupイベント、Recommendation Industry Talksに参加してきましたので参加レポートを書きました!
Recommendation Industry Talksについて
2024年1月から始まり、私は4月に実施された第2回に参加しました。
3か月ごとを目安に実施予定なので次回は7月になりそうです。
そして主催の御三方について、データサイエンス界隈ならご存じの方も多いと思います。
wantedly 合田さん、機械学習領域のテックリード&Kaggle GrandMaster(hakubishin3@jy_msc)
DMM 金子さん、複数サービスのレコメンドモデルを作成しているMLエンジニア&Kaggle Master(nadare@Py2K4)
メルカリ 柳沼さん、データアナリスト→MLエンジニア&Work In Progress Podcastの方(@yaginuuun)ちなみにpodcastのBGMが白金鉱業FMとおそろいです!笑
当日のレポート
LINEヤフーの四谷オフィスで開催されました。
入場ゲートのサイバーテック感でテンション上がりました笑
LTについて
LINE、クックパッド、タイミー、それぞれプロダクトの特性を考慮していて三者三様でめちゃおもしろかったです!
LINEはその規模のデカさからバッチ処理、クックパッドとタイミーはプロダクトの性質上リアルタイムが必須そうです。
どの発表も試行錯誤の過程と具体の処理やモデルまで語っていて、プロジェクトを追体験した気分です。
誰もが知っているtoCのプロダクトであるため、具体のイメージをしやすいのも良かったです。
LT①:LINEヤフー「スタンプショップの推薦枠に2-stage制を導入した事例紹介」
LINEヤフー、石川さんの発表です。(じんゅき@cafeal__)
馴染み深いLINEスタンプのレコメンドについて、数億ユーザー×数千万種のアイテムを日次で推薦するリストを作る話です。
あれだけデカイと分散基盤使っててもJOINの仕方も工夫しないと日次で回すのが難しく、BROADCAST JOINという「結合される小さいデータセットを、あらかじめ各ノードに配っておく」ことでshuffleを防いでいます。
こんな細かいことまで惜しみなく発表してくれるなんてすごいですね~。
小さいデータセットがメモリに収まるサイズであれば使える手法なので、自分が想像しているよりもかなり大きいリソースでぶん回していると推測しています。
また予測にはtwo-towerモデルを使っており、ユーザー、アイテムの特徴をembedingしているのでコールドスタート問題に強いです。
元々LINEのペルソナ推定DBは認知していたので、これらがどう使われているかの具体例が知れてよかったです。
ほかにも二段階の予測モデルの話だったり、改善したモデルのリリース後も5%のユーザーには従来のモデルを適用して運用する話も興味深かったです。
LT②:クックパッドが取り組むレシピレコメンドの面白さと難しさ
クックパッドのお二方の発表です。
・深澤さん (fufufukakaka@fukkaa1225)
・重久さん (しげひさ@naoki_shigehisa)
クックパッドのサービスの特性に向き合って推薦システムを考えられていました。
目的ドリブンで来訪する。なにか作りたくてクックパッドを開いているはず
なので検索画面がよく使われる
明確なCVがデータに存在しない。レシピ保存機能やつくレポはあるが、全ユーザーがその機能を使うわけではない。
例えば「先週チャーハンを作ったユーザー」が「今日はナスと味噌で何かつくろう」としていたらチャーハンを推薦しても意味がない。ということで検索したあとに推薦リストを作成するというアプローチをとったとのこと。
この考えに至るまで事例調査や思考の過程も発表されていました。
リアルタイム推論が必須なのでMLOpsのスキルも求められますね。
推薦モデルは「Sequential Recommend」。RecBoleというライブラリならAPI実装含めてそこまで複雑ではないとのこと。そして発表者の深澤さんの推しライブラリらしい。
挙げられた課題の中でまだ解決しきれていないものもあると思うので今後も楽しみです~。
例:冷蔵庫の中身などユーザーの在庫がわからない
まさにLTのタイトル通り、面白さと難しさが伝わってくる内容でした
LT③:タイミーにおける H3を活用したレコメンドの改善事例
タイミー、小関さんの発表です。(@ozeshun)
Uber社が開発している地理空間システムH3を利用しています。
にゃんこそばさんのコメダの値段可視化やpodcast「となりのデータ分析屋さん」を聞いて地理空間情報に興味を持ち始めていたので個人的にタイムリーな話題でした。
こういう視覚的にデータを確認できるのはやっぱりテンション上がりますね~!
また、タイミーの推薦するアイテムの特徴として、働いている地域への依存が大きい、生存サイクルが短いというのがあります。確かに募集が埋まったアイテムを推薦するとユーザー体験に悪影響を与えるのでリアルタイム性が必須ですね。
特に前者に関連して予測精度が上がらなかったユーザーの深堀をしていました。
推薦モデルとしては「登録住所と推薦するバイト先が近いほどおすすめする」
そのせいで「登録住所から離れた場所で働く人」「複数の生活圏がある人」の予測が外れていた
→「登録住所と推薦するバイト先の物理的距離」を連続値から離散的な特徴量に変更しすることで精度改善
発表中にところどころで笑いも起きていて和やかな雰囲気で良かったです笑
懇親会
wantedly、サイバー、LINEヤフーの方などが来ていました。学部生の方もいてアンテナ感度の高さに感心です。
個人的にはwantedlyの合田さん、一條さん、podcasterのtakakuさんやtakapyさんに会えたのが嬉しかったです!
そして白金鉱業Tシャツを着ていったらにのぴらさんに煽られました褒めてもらえました!
やっぱりオフラインはいいですね~。LTも熱量が伝わってくるし、懇親会で輪も広がりますね~。話楽しく過ごせました~!
さいごに
昨今はどのプロダクトにも推薦が仕込まれていてML職種なら避けては通れない領域なので、実務でどう向き合っているかを共有していただける場はめちゃありがたいですね~。
というわけで、次回も行こうと思っているのでもし当選できたら懇親会でお話しましょう~!
この記事が気に入ったらサポートをしてみませんか?