見出し画像

メルカリ社内のデータ分析基盤を効率的に改善する「データ利用監視」の方法

こんにちは、Mercari Analytics Blog 編集部です。
連載「メルカリのデータアナリストが向き合う11のテーマ」、今回はAnalytics Infraチーム、@nambさんによる記事です。@nambさんはデータアーキテクトとして入社し、メルカリのデータ分析基盤を整備しています。今回は「データ利用監視」というテーマで、仕事の内容を語っていただきました!

データ基盤の改善は「利用状況の把握」から始まる

――取り組みのミッションは何ですか?

データの利用環境の改善を通じて、データに基づいた意思決定をサポートしています。
前提として、データセットやテーブルのメンテナンスにおいては、影響範囲の評価や優先順位の決定が重要だと考えています。メルカリでは、中間テーブル作成などの積極的なデータ環境改善に加え、プロダクトの改善・データフローのリニューアルに伴うデータのリプレースも常に並行して実施しており、いずれの場合にもまずデータの利用状況を把握(=データ利用監視)することから始めるようにしています。

――ご自身はどのような役割ですか?

個人的には現在、プロダクト改善に伴う指標のメンテナンスに主に取り組んでいます。
今回お話しするデータ利用監視については、すべてのデータ基盤整備業務の前提として行っているため、Analytics Infraチーム内で特に分担しているわけではありません。

――取り組みに参加したきっかけは何ですか?

先述の通り、Analytics Infraチームではすべてのデータ基盤整備業務の前提として利用状況の把握を行っています。チームに参画した直後から、利用状況の可視化による業務効率向上を実感し、現在も習慣化しています。

組織別にデータの利用状況を把握することで、効率的なデータ整備が可能に

――チームのObjectiveは何ですか?

データ分析環境の改善・評価指標の管理・データ分析ノウハウの標準化などを通じて、メルカリのデータ分析を支援し、データに基づいた意思決定をサポートしています。

――そのObjectiveに対して、チームとして今どのような課題に取り組んでいますか?

  • レガシーなパイプラインに依存したデータの利用停止

  • 権限を適切に管理しながら社員が自由に利用できるデータ環境の構築

  • 経営指標のアップデート

などを行っています。

――その課題に対して、どのように分析を進めていますか?

データ基盤の改善において、影響評価や優先度の決定のために利用状況の可視化を行っています。BigQueryの監査ログやINFORMATION_SCHEMAを使用すればデータユーザーをバイネームで見ることができます。一方で、利用規模が大きい場合はバイネームではなく、所属する組織単位で集計するとよいケースがあります。メルカリでは組織情報のデータをクローズドに公開しており、それを紐づけることで組織別の利用状況把握が可能になっています。

――その分析のアプローチ方法やプロセス等を用いた理由は何ですか?

利用ログを見るだけでは何のために使っているのかは理解しきれないため、ヒアリングの必要があります。利用人数が多い場合、各メンバーに聞いて回ることが難しいため、所属組織でまとめられれば効率的にヒアリングを行えるのにな、と思ったのがきっかけです。

――分析における難しいポイントは何ですか?また、それをどのように乗り越えていますか?

組織情報は社員の個人情報でもあるため、取扱いには注意が必要です。共有範囲をチームメンバーに絞り、アクセス権限の管理は厳密に行っています。

――分析の中で意識しているポイントは何ですか?

サービスアカウントはオーナー組織を別途探す必要があったり、そもそも利用者の所属する組織の数が多ければ重要なデータなどと一概には断言できるわけでもなかったりと、利用ログの分析は万能ではありません。限られたリソースの中でなるべく効率的に、かつ致命的な見逃しを避けて整備業務を行うためという目的を見失わず、参考にできる範囲で利用ログの監視を行っています。

――取り組みに参加するやりがいは何ですか?

メルカリのBigQueryユーザーは月間900名に届こうかという大規模なものです。そのような環境下では、データ分析を改善することであらゆる事業の意思決定にインパクトを与えることができる実感があります。

――チームとして、今後どのような価値をお客さまに提供していきたいですか?

プロダクトの改善や予算配分など、あらゆる意思決定がデータに基づいて行われています。お客さまからいただいたデータを正しく・効率的に分析できるようデータ利用環境を改善していくことで、メルカリ社員の日々の成果が少しでも早くお客さまに届くように貢献していきたいです。

スクラム体制を実施。チームとして複数のテーマに取り組む

――チームには、どのような職種の人がいますか?

データアーキテクト、データエンジニア、アナリティクスエンジニアなど複数の領域を掛け持ちしたメンバーが揃っています。また、全員アナリストの一面もあります。各メンバーがEpicと呼ばれるテーマのオーナーになっており、その中のタスクを部分的にシェアしながらチームとして複数のテーマに取り組んでいます。

――コミュニケーションはどのように行っていますか?

スクラム体制を実施しているため、毎日夕方に進捗確認をしています。その他、業務上の相談事やアイデアのシェアなどは随時Slackチャンネルでも行っています。

全員フルリモートなので一度も実際に対面したことのないメンバーもいるのですが、チームビルディングや業務上のゴール設定などの議論はオンラインMTGで行うことで、理解を深められていると思います。一方で、記録に残すという意味でも、Slackやドキュメントベースのコミュニケーションも積極的に行っています。

――リモートワークで気を付けていることはありますか?

Slackでは積極的にリアク字(リアクションの絵文字)をつけたりして、反応が見えるようにしています。また、MTGでは時間があれば雑談も挟むようにして、発言しやすい空気を全員で作っています。メンバーが増えるたびに各自のワークスタイルの共有を行なっていることもあり、仕事を進める上でのストレスを減らせているのではないかと思います。

データ整備の「攻守バランス」を保ち、大きな改善へ

――データアナリストとして、今後取り組みたいテーマは何ですか?

データ整備においての攻め・守りどちらもバランス良く進めていきたいです。例えば、複数の部署がそれぞれに類似のテーブルを作って集計しているケースに対して、共通して使える中間テーブルを作れば、利便性を上げつつ、コストを削減したり指標のブレを防いだりもできます。インパクトの大きい改善を続けていきたいです。

――こんな人と一緒に働きたい、というイメージがあれば教えてください

データ整備の領域は地球上にベストプラクティスが存在しないこともしばしばで、常にメルカリにとってのベストを考え続けることが求められます。理想状態を議論しながら地道に改善を積み重ねていける方と一緒に働きたいです!


「メルカリのデータアナリストが向き合う11のテーマ」と連動したイベントも開催します!こちらからお申し込みください。

▼「メルカリのデータアナリストが向き合う11のテーマ」連載記事一覧

職種一覧やその他の関連記事を見たい方は採用サイトへお越しください

この記事が気に入ったらサポートをしてみませんか?