見出し画像

データサイエンティストが語る、データ分析をサービス改善と会社の成長につなげる醍醐味とは

LINEヤフーには、データ分析やAIを活用する全社横断的なデータサイエンティストが所属する組織があります。各事業部からのリクエストに対し、 メンバーそれぞれが各自の担当領域ごとに役割を担い、サービス改善に関わっています。

なかでもデータサイエンティストの力が必要になる事業領域のひとつが、eコマース事業です。 今回は「Yahoo!ショッピング」や「Yahoo!オークション」に代表されるeコマース事業のなかで、データサイエンティストたちが担う役割をお伝えします。

※本記事は2021年に取材されたものを再編集しています。内容は旧ヤフー株式会社時代の情報を含みます。

プロフィール

関口 優希(せきぐち ゆうき)
2017年に新卒入社。入社以来、サイエンス統括本部にて「Yahoo!ショッピング」のデータ分析に従事。現在は主にヤフー系サービスの横断領域を担当する分析部署の部長を務める。

今関 眞倫(いませき まさみち)
2019年に新卒入社。検索モデリングの部署に所属し、検索やレコメンドの機械学習モデル開発・改善を担当。現在は主に「Yahoo!ショッピング」の検索改善に従事。

伊奈 拓郎(いな たくろう)
2018年に新卒入社。自然言語処理の部署に所属し、「Yahoo!ショッピング」などのeコマース事業に従事。現在はeコマースのクエリからカテゴリなどの属性を推定する要素技術の改善および運用を担当。


膨大なデータを思う存分、分析してみたかった

ー本日はeコマース事業におけるデータサイエンティストの仕事ややりがいなどのお話を伺えればと思いますのでよろしくお願いします!まずは、みなさんの入社動機から聞かせてください。

関口 大学院の博士課程で物理学を専攻し、X線レーザーを使って細胞の構造を調べる研究をしていました。その実験では1秒に1GBという大量のデータを扱います。 ひとつの実験でのデータ量は数TBにもなる。それをリアルタイムに処理、可視化して分析します。この分析がとても楽しかったことから、それを最大限に生かせるヤフー(現LINEヤフー)に入社することを決めました。

企業からデータを受託してデータ分析を行う専門企業はいくつもありますが、やはり自社の事業を通してデータをたくさん持っている企業でなら、分析できる範囲も広がるのではないかと思ったのです。

今関 私の学生時代での研究テーマは、顕微鏡で細胞の動きを撮影して、その動画を解析すること。この分析過程に興味を持つようになり、分析を仕事にする職業に就きたいと考えました。

いろいろ業界研究してみたら、先進的にデータ分析を組織立って行っているのはWebサービス業界であることを知りました。とりわけヤフーには、データ分析のための専門的な部署があり、きっと分析基盤が整っているだろうし、相当な知見も溜まっているだろうと想像しました。

たとえば、さまざまなサービスのユーザーデータが一つのデータベースに集約されていて、必要なときに欲しいデータが得られるイメージです。実際に入社してみると、データベースがかなりフォーマット化されており、多様なサービスをシームレスに分析することができる。思った通りの環境でした。

伊奈 学生のときに旅行アルバムを対象にした人物クラスタリングや、調理映像を画像処理する研究をしていました。研究室の先輩はほとんどが大手メーカーに就職するのですが、OB訪問でヤフーに勤めている先輩から話を聞き、インターネット企業に関心を持つようになりました。 先輩からは「20代からバリバリと活躍できる環境」だと聞き、魅力を感じました。

ー入社前後で会社や業務についてイメージのギャップはありませんでしたか。

伊奈 OBから話を聞いていたので、それほどギャップは感じませんでしたね。

今関 私はエンジニアリングの経験が浅かったので不安もありましたが、新卒入社者向けの研修やサポートが充実していたので、なんとかついていくことができました。

関口 私はとにかくたくさんのデータを触りたくて入社しましたが、専門のエンジニアがすでに良い環境を作りあげていたため、それが叶って非常に満足しています。ですからギャップのようなものは特にありません。 データ分析では、ビッグデータの格納と処理を可能にするHadoopのような基盤技術が重要ですが、LINEヤフーではそれらを構築するプラットフォームエンジニアが別に存在します。 彼らが作るHadoopクラスタはおそらく日本最大級。とてもありがたいことですね。

データサイエンスにおける業務フローとは

ー業務フローや、業務上の連携などはどのように行われているのですか。

関口 「Yahoo!ショッピング」を例に挙げると、担当部署では常に、どうしたら売り上げを向上できるかを考えています。その相談が分析チームにも舞い込みます。「Yahoo!ショッピング」の各データから、どこかに改善の余地はないか、何かネックになっていることはないかを分析してほしいという依頼ですね。

「Yahoo!ショッピング」を訪れたユーザーが商品の検索をする場合、「何をお探しですか?」とメッセージが書かれた検索窓に自分が欲しいものを入力します。もし商品名を知らない場合は、カテゴリから自分で探すことになるでしょう。 いずれの方法でも、自分が思ったとおりの欲しい商品がきちんと出てくれば購入意欲が高まりますが、逆にイメージと全然違う商品ばかりが出てきてしまうと「もういいや」となってしまう。

たとえばユーザーがメロンソーダを買いたいと思ったとき、それが「炭酸飲料」のカテゴリに分類されるのは、人間には理解できます。しかし、コンピューターにもそれをきちんと学習させておかないと、めちゃくちゃな検索結果が出てしまう可能性もあります。このようなガッカリ体験をしてしまうリスクをできる限り減らすことで、売り上げが向上する可能性があるのです。

関口 優希

そうした自然言語処理技術の基盤を作っているのが、 eコマースのクエリからカテゴリなどの属性の推定などを行う要素技術チームです。そこで、このあたりの改善余地はどれぐらいあるのかを確認し、その回答をもとに私がデータサイエンティストの立場で「この改善をこれだけ行うと、1カ月で売り上げはこれぐらい伸びますよ」と、サービス側にフィードバックする。

その改善策で進めることになったら、要素技術チームには自然言語処理の改善を頑張っていただきつつ、KPI改善チームには、機械学習のモデルを開発して、それを検索処理に取り込むようにお願いをします。新しい機械学習モデルのアイデアを出してもらい、それをテストして改善が見込めそうであれば、実装しようということになる。そこで登場するのがアプライチームです。

アプライチームはいくつかのチームが開発した機能を、実サービスに導入する業務を担当しています。ただし、改善された機械学習モデルの実装といっても、ただ導入すればいいというわけではありません。それを導入することでレイテンシ(通信の遅延時間)が発生したりレスポンスが落ちたりしては意味がないですからね。テストを重ねて、機能追加とサービス改善が同時に達成できることがわかって、初めて本番実装ということになります。

このように各チームが連携しながら、何回も検討を繰り返し、日々のサービスが改善されていくわけです。

「メディア to コマース」戦略を実現するために

ー分析領域の業務をこなしながら、同時にチームリーダーも務める関口さんは、どんなミッションと役割を果たされていますか。

関口 分析チームは開発と違って、スケジュールが立てにくい面があります。開発では段取りやスケジュールが重要ですが、分析案件はビジネス事情に左右されることがあるからです。 なかには難易度が高い案件もありますが、それをなんとか調整して、メンバーの負荷が偏らないようにする。それもリーダーとしての役割ですね。

ただ、人が増えれば負荷が改善されるかというと、必ずしもそうではない。データサイエンティストには個々のセンスが求められます。人が増えるだけでなく、得意分野の異なる人が集まることが重要だと思います。

ーみなさんは、企業戦略も意識しているのでしょうか。

関口 これまではどちらかといえば、広告をコアとするメディア事業を中心に推進してきました。しかし、「Yahoo!ショッピング」などのeコマース事業を強化しようという動きがこの数年強まっています。

新型コロナウイルスの流行による巣ごもり需要により、eコマース自体の取扱高も伸びています。そこで、メディアサービスを利用するユーザーに、「Yahoo!ショッピング」をはじめとするeコマースをもっと体験してもらうための取り組みが進んでいます。

たとえば、「Yahoo!ニュース」に、そのユーザーに特化した商品レコメンドを展開し、「Yahoo!ショッピング」に来てもらう。この戦略がスムーズに行えるように、AIを使ってデータを分析することも私たちのミッションのひとつです。

特徴量を掴んでモデルに反映させ、仮説・検証を繰り返す

ーここからは、それぞれの専門領域に関する技術的な話を伺います。今関さんは、検索に関する機械学習モデルを改善することが日々のテーマですが、改善のためのポイントはどこにありますか。

今関 まず、モデルに使える特徴量を掴むことが重要です。データのなかに見られる特徴量を発見し、「これを活用するとこういう効果があるのではないか」と仮説を立てます。それをモデルに使って精度が上がることを確認したら、実際のシステムで使えるように開発を始めます。

特徴量の検証には実システムで実装可能かという観点も重要になります。開発はKPI改善チームだけで完結するものもあれば、システム担当と協力して実装するものもあります。実装できたらテストを行って、どれだけ売り上げが上がるかなどを確かめられたら実サービスに導入する、というのが一連の流れです。 テスト結果が予想に反した場合、きちんと分析して次の改善につなげるのも重要なポイントです。

私たちはさまざまなサービスのデータを扱っているので、「このサービスではこうした特徴量が効いた」というモデル改善の情報や事例がチーム内で共有されます。この仮説・検証には通常1〜2週間はかかります。実際にサービスに適用したテストも1カ月で終われば早い方ですね。

今関 眞倫

検索機能にニューラルネットワークの知見を生かす

ー伊奈さんは自然言語処理(NLP)技術を専門にされていますが、社内での自然言語処理技術に関する動きや活用の事例があれば教えてください。

伊奈 社内では、誰もが自然言語処理を扱える方向での研究開発が進んでいます。

社内ではライブラリやWeb APIなど、さまざまな言語処理機能が提供されていますが、エンジニアではないメンバーにとっては複雑で使いにくい。そこで、言語処理のインターフェースの共通化を推進するプロジェクトが始まりました。共通化が進めば、新規に開発された機能を利用する場合も覚えることが減り、学習コストを削減できます。

その一方で、各サービスにおける検索モデリングでもニューラルネットワーク、いわゆるディープラーニングを活用していこうという流れがあります。検索のアプリケーション側におけるニューラルネットワークの活用は業界的にもまだまだこれからですが、どういったサービスに適用すると展開効果があるのかを考えながら進めていくのは、非常におもしろい仕事だと思っています。

伊奈 拓郎

たとえば、「Yahoo!ショッピング」の商品カテゴリって、1万以上あるんですよね。そのなかからどれがクエリとマッチするかを決めなければならない。そこに定番的な技術が確立されているわけではないんです。eコマース領域の技術は日々進化していて、国際的に論文もたくさん発表されていますが、それらを読んで何が自分たちのサービスに使えるかを試していくことも、データサイエンティストとしての醍醐味の一つだと考えています。

私個人としては、やはり国際的な自然言語処理学会であるACL(Association for Computational Linguistics)や、機械学習分野の国際会議では世界最高峰といわれる、NeurIPS(Neural Information Processing Systems)の論文発表は目が離せないですね。

データ分析の結果をサービス改善につなぎ、ユーザーの行動を変える

ーサービス側からのリクエストに対応すると同時に、アカデミックな関心を持ち続けることも必要なのですね。みなさんは仕事の醍醐味をどこに感じていますか。

関口 経営層から直接リクエストを受けることもあるので、まさに会社の経営に直結するという意味で責任は重大。さらに、自分たちの技術によるサービス改善が与える影響範囲も広いですね。分析の方向を一つ間違えば、事業機会の大きな損失につながることもあります。プレッシャーはありますが、それだけ重要な仕事であると思っています。

伊奈 私は要素技術の提供が基本業務ですが、それを使って分析した結果や、そのデータを踏まえて「Yahoo!ショッピング」の画面構成が変わっているのを目の当たりにすると、自分の技術が生かされた実感がありますね。検索画面が「きれいになったな」と思う瞬間がエンジニアにはあるんです。

今関 私はKPI改善という領域にいるので、常に数字にはこだわりたいですね。私たちがモデルを改善することで、ひと月の取扱高が数億円規模で変わることが実際にあります。これは結果的に、より使いやすいeコマースサービスを世の中に提供できたという証しなので、そこに大きなやりがいを感じます。

もちろん、「超PayPay祭」のような大規模キャンペーンの売上高に比べれば微々たるもの。それでも、私たちのコツコツと地道な作業が会社を支えているという自負はあります。そこは、今後社内でもっとアピールしていきたいところですね。

関口 データを分析していると、性別や年齢で行動に明らかな異なる特徴が見えてくることがあります。たとえばキャンペーンにおけるレコメンドでも、男性には具体的な商品を掲示するとクリックされやすい傾向があるのですが、女性はキャンペーンなどのお得感を強調した方がクリック率は高くなる。

世の中の消費行動すべてに当てはまるかどうかはわかりませんが、少なくともLINEヤフーのeコマースではそういうファクトがある。「それを知っているのは僕だけだな(笑)」みたいな、密やかな楽しみはデータサイエンティストならではのものですね。

データサイエンティストの成長意欲に応える環境

ーまさに、これまで思い込んでいたことをデータが覆す「ファクトフルネス」の世界ですね。最後にみなさんの今後のキャリアプランを聞かせてください。

関口 私は、この2〜3年内に絶対やりたいことがあります。社内には「分析」と名のつく部署がたくさんあるのですが、その技術レベルはまちまち。私たちデータサイエンティストがリーダーシップを発揮し、全社の分析クオリティを底上げする活動を始めたい。 「データの民主化」をより高度化する取り組みをしたいですね。

今関 今後も検索改善という領域で、より大きなプロジェクトに関わっていきたい。そのためには機械学習のモデリングだけではなく、アプリケーションやエンジンとデータを連携するバックグラウンドの知識も必要になります。さらにプロジェクトマネジメントの経験を積み上げていく必要もあると考えています。

伊奈 自然言語処理以外の技術やチームマネジメントに関心があります。今後のプロジェクトでプロジェクトマネージャーを務めたり、スペシャリストとしても活躍したりもしたい。どちらもできる人材になれるよう成長したいと考えています。

ーみなさん、成長意欲が旺盛ですね!LINEヤフーは、そうした成長意欲を実現できる環境だと思いますか。

関口 膨大なデータを持つLINEヤフーは、私たちデータサイエンティストには最高の環境ですね。 eコマースだけでなく、メディアや広告、検索のデータもある。事業領域が広いから、まさにマルチビッグデータ。これはなかなか触れられないものです。 データで売り上げが上がるという実感が得られることも、大きなポイントです。事業規模が大きいから、わずか1%の改善も巨額の数字になって跳ね返ってきます。これが、エンジニアの成長意欲を刺激しますね。

伊奈 新入社員でも新卒研修終了直後に重要なタスクを任せられることもあります。若手が実力をすぐに発揮できる環境があるし、ベンチャー企業のような雰囲気もありますね。

今関 環境変化に対応し、持続的な成長を続けようという意欲が会社自体にあります。それが働いていて楽しいという実感につながっているのだと思います。

ーeコマース事業が、データサイエンティストの皆さんに支えられていることがよくわかりました! 本日は貴重なお話をありがとうございました!


記事を読んでデータサイエンティストに興味を持っていただいた方は、ぜひ下記より職種の詳細をご確認ください。

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!