第6回 データを売ることの夢と現実(2024/2/2 SnowflakeJP デタマネ UserGroup)


Snowflake デタマネユーザーグループとは(再掲)


こんにちは。Snowflakeのデタマネユーザーグループ(デタマネ会)の佐川です!
普段はNTTデータで通信系のお客様向けにデータ基盤開発をしています。

デタマネ会では毎週第一金曜日に、データマネジメント関連で気になるテーマをディスカッションしてノウハウ共有しています。
詳細はこちら↓

今回は第6回2/2(金)のデタマネ会のディスカッション内容をお届けします!

第6回テーマ 紹介


第6回テーマは
『データを売ることの夢と現実』
   by HR Force 鈴木さん
 @suzupappa
です。

『SnowflakeMarketplaceではアプリも流通できるようになったし、自社のデータやアプリも何か製品化できないかな?』
『弊社は膨大なデータを保持しているから他社に売れるデータもあるのでは?』
と思いつつもまだデータを流通させるに至っていない方はたくさんいらっしゃるのではないでしょうか。
今回は、デタマネ会参加メンバーから、実際に他社へのデータ共有・販売をされている鈴木さんに、データを売る際に留意していることは何か?どうやって顧客を見つけているのか?等素朴な疑問をぶつけてみました☃

今回の話でデータの売買も、やはりデータ活用の基本である活用目的の把握のように、売買対象のデータについても、このデータを使って何をしたいのか?という活用目的の把握が一番大事なんだと再認識しました。

当日の資料はこちらです↓


テーマ説明 by 鈴木さん

鈴木さんが所属する会社では、顧客にHRデータの共有・連携をしています。

データ共有の『夢』

私達、データ・エンジニアが抱く、データ共有・連携の夢は

  • 社内整備済みのデータ分析基盤のしくみを、「そのまま」他社に提供できないかなあ

  • 社内データを、「そのまま」売れないかなあ

等ではないでしょうか。つまり、自社データを「そのまま」、もしくは微調整して、汎化して、顧客やパートナーに提供したいのではないでしょうか。

データ共有の『現実』

ただし、データ共有の「夢」と「現実」は異なります。
鈴木さんは、以下が「現実」だとおっしゃっていました。

データやシステムだけユーザーに提供しても、データは利用されない。

そもそも
『エンジニアでも、ユーザーの目的に必要な「データを収集」「DWH取り込み」はそれなりに難しい。』
『ユーザーは、DWHを知らないケースが多い。DWHを導入しても喜んでもらえない。』
『ユーザーは、データを探索するためのBIの設定方法が分からない。』
ということが多く、データの利活用が進んだ企業しか使ってもらえない「現実」があります。
その為、鈴木さんの所属する企業では ”インプットデータをそのまま販売するだけではなく、「データ基盤の構築」、「BIによる可視化」「データ利活用のレクチャーコンサル」をセットで提供” しているそうです。
ターゲットとするHR業界では特に、データ活用ツールがまだ浸透しておらず、そのサポートへのニーズが高いというお話でした。

たしかに業界による差異を感じます。例えば、データエンジニア界隈ではSnowflakeからデータを抽出するのは当たり前のような感覚です。ただし、自社だけでなく他社にデータ利活用してもらう為には、「具体的な活用方法の想定」から「サポート」まで必要ですよね。

改めて、データ活用はそもそもの業務目的が一番大事と、再認識しました。

QAパート by 鈴木さん+参加メンバー

■提供対象データ

Q1.提供前提で作成したデータか?
→いいえ。 社内活用を前提に構築していたデータが基になっている。

Q2.提供価値のあるデータとは?
→データドリブンを推進できるデータ。

「データドリブン」と「データインフォームド」の提供形式には、一長一短がある。

データインフォームドを前提としたデータ・データ提供では利活用は受け手の能力に依存する。しかし、実情の多くはデータから各々が判断するインフォームドなデータ提供になっている。そのため、「データドリブンを推進できるデータ」が大事だと考える。

・データドリブン:
受け手がデータを見ただけで実際にアクションを起こすことができるデータ
・データインフォームド:
受け手がデータを見て各々が判断をして進めていくデータ

鈴木さんスライドより


Q3. 「データドリブンを推進するデータ」を提供するために、データを加工しているか?
→現状は基本的に生データで提供している。
そこからデータマートの作成やBIツールでダッシュボード提供、利活用のサポートまで支援している。
→しかし、この状態はデータインフォームドで、使える人しか使えない。将来的に、データドリブンにする為には提供先ごとによりカスタマイズする必要があるが、工数との兼ね合いで悩ましい。

Q4.「データドリブンなデータの事例は?
→たとえば、広告運用における閾値アラート。過去の数値から設定値を超えたら、アラートを出す等。すぐにアクションを起こせる。これはシンプルなデータドリブンだと思う。
広告に関して言えば、特定のクラスタリングを行った場合のアクションなど、データに基づいて行動を決定するようなアプローチが存在する可能性がある。

Q5. 提供する際、セキュリティなどで特に気をつけていることは?
→最優先事項は、正確なデータのみを公開すること。加えて、提供範囲の誤りがないようにすること。SnowflakeのSecureDataSharingを使用してデータを提供しているが、提供先を誤るリスクを極力減らすため、予めミスを防ぐ対策が必要。
これを達成するために、Terraformを用いて管理し、手動操作を避けるようにしている。
● 提供先がIDのみだと判別が難しいため、HumanReadable(アカウント名やドメインなど人が読みやすい情報)も併用。
● 顧客設定ファイルに対するPRレビューや自己確認がしやすいよう、複合キーを用いる。
● 顧客のデータセット名とドメインは、会社名ではなくドメインを使用して一意性を保つようにしている。これは会社名だけでは重複する可能性があるため。
● 誤って提供先を間違えそうな場合は、アラートが発生するように設定している。

Q6. 顧客の要望へはどのように対応している?
→SLA(サービスレベルアグリーメント)とSLO(サービスレベル目標)を厳守し、顧客により迅速にサービスを提供するために、データ更新プロセスをイベントドリブン方式で実装しています。また、サービス向上のためにシステムアーキテクチャの見直しや新しいツールの探索も行っている。

Q7.SLA違反やバグが発生した際の対応
→α版では、予期せぬエラーでデータ配信が停止したり、Google Cloudのリソースが利用不可になることで処理が停止するなどの問題が発生した。
複数のデータソースを管理しているため、これらの問題に対処するのは非常に困難だったことが要因。現在はSLO設定には一定の余裕は持たせつつ、データ更新はイベントドリブン方式で自動化し、できる限り早く提供している。

Q8. SLO設定における余裕の意味合いは、例えばデータの更新速度を上げてほしいという要望があった際、運用品質とのバランスを考慮して、可能な限り余裕を持たせて設定しているということか?
→とあるデータは米国時間に基づいて提供していて、それ以外のデータはイベントドリブン方式で提供している。イベントドリブン方式によるデータ提供の最適な鮮度を内部テストを通じて評価し、可能な限り迅速に提供できるよう調整している。
→スケジュール実行を採用すると、トラブル時にデータ提供が大幅に遅れるリスクがある。
→一方で、イベントドリブン方式は運用コストが高くなる傾向がある。これは主にツールの利用コストが高いためで、例えばSnowflakeでは仮想ウェアハウスを個別に起動する必要がある。スケジュール実行では、リソースを一括で使用できるため、より効率的。GA4のデータなどは個別に取り込んでいる。

■データの価格

Q9. データの提供自体に料金は発生する?
→現在、データ自体に直接価格を設定してはおらず、主にコンサルティング料金によって収益を上げている。データの整備にかかる工数に応じて価格設定の可能性はあるが、特に広告運用の場合、予算が大きいクライアントほど価格設定がしやすい傾向にある。
→しかし、生データに直接価格を設定することは難しい。データクリーンルーム(DCR)を利用してマスキングしたデータの提供など、特定の形式でのデータ提供では価格を設定できる可能性があるが、一般に企業間で共有する段階のデータには価格を設定していない。

■データの流通方法

Q10. 顧客はどのように見つけるのか?
→最初の接点は人の繋がりが基となっている。データ活用を促進するコミュニティやセミナーを通じて、データ共有の価値を高める取り組みを行っている。これにより、データ活用の基盤を育成している。

Q11. どのプラットフォームでデータを提供しているのか?
→現状、SnowflakeではSnowflakeのSecure Data Sharingを使用しており、Snowflake Marketplaceは使用していない。提供先とのミスを避けるため、データ共有専用のSnowflakeアカウントを持っている。
→Snowflakeのほかに、BigQueryのAnalytics Hubでもデータ共有をしている。

■データを使ってもらう啓蒙活動

Q12. データを共有して受け手側にはどういったメリットがあるか?
→サイロ化されたHR(ヒューマンリソース)の広告データが一か所に集約されることは、私たちが現在提供しているデータの大きなメリット。
「これまでに実現不可能だったことが可能になる」
という点が、私たちのデータの価値と考えている。この価値を伝え、啓蒙していくことが重要。
ただデータを提供するだけでなく、その「売り方」にも注意を払う必要がある。
→特に人事の分野では、業界の特性が大きく影響する。通信やIT系の企業が受け手であれば、スタート地点も異なる可能性もある。
例えば、流通系の分野ではデータをデータベースに取り込むというアプローチが一般的といえる。ただし、経理や人事などのスタッフ系の業務では、まだExcelを駆使して作業を行っている場合が多い。このような状況を変えるためには、私たちがコンサルティング的な役割を果たし、業務がどのように変化するかを具体的に説明し、変革を促していくことが重要。

Q13. データの活用に関するコンサルティングのコツを教えてほしい。社内外でのデータ共有における準備方法についても知りたい。
→業務効率化の具体的な成果を強調することが重要。「これまでの作業時間がX分からY分に短縮されます」と具体的な改善効果を示すと良い。
実際には予測した時間通りにならない場合もあるが、改善が見込まれるため、断定的に述べる方が効果的。
例えば、「大規模なExcelファイルを開くのにかかる時間が大幅に短縮されます」というように、日常業務の具体的な改善点を提示することが有効。
また、専門用語やツール名の使用は避け、説明が複雑にならないように心掛けている。データウェアハウス(DWH)のような専門用語を使うと、ユーザーが興味を失うこともある。
説明の順序や内容を簡潔に保ち、システムの構成よりも実務上の利点を強調することが大切だと考えている。

Q14. データ活用のコンサルティングを行う上で特に気を付けていることは?また、データの理解を深めるために、どの程度の情報を共有している?
提供するデータの最小粒度をまず共有し、その後、提供先の追求している目標や必要としている情報を理解した上で、適切なビジネスインテリジェンス(BI)やデータマートを構築。また、データ提供前に、その活用方法を検討し、具体的な提案を行うことで、後戻りを防いでいる。
繰り返しになるが、実際に、「このデータのこの部分を見れば、求めている情報が得られます」というように、データの具体的な見方や活用方法を伝えることが効果的。例えば、Tableauなどのツールを通じてデータを視覚化する際も、膨大な項目を提示するよりは、必要な情報に絞り込むことで、利用者の理解を助け、嫌悪感を避けるべき。
結論として、どれだけ分かりやすく、実用的なデータを提供できるかが重要。

Q15. 大企業内におけるデータ共有はどのように行われている?
→大企業では、データ共有のプロセスがより体系化されている。
一般的な方法は「データカタログ」を用いてデータ仕様の明確化と、全社公開。
→また、データ分析専門チームやデータ活用研修チームが存在し、これらのチームがデータの活用方法を社内共有したり、研修を提供したりすることもある。
データ抽出が難しい社員向けには、Streamlitを使用してSQLのWhere句に相当する選択をWeb画面上で行えるようにし、クエリの結果を可視化し、必要なデータをダウンロードできるアプリケーションを提供している事例も存在する。
参考: Impress IT記事 https://it.impress.co.jp/articles/-/25986

→さらに、Tableauを活用する企業では、「Tableau Doctor」と呼ばれる、毎週金曜日に開かれる相談会を設けている場合もある。
これにより、社員が直面する問題に対応し、データの活用を促進している。
→SQLの知識がある社員に対しては、Redashを使ってさらにデータを掘り下げる機会を提供している。また、データに触れる前にテストに合格する必要があるルールを設けている企業もあり、これによりデータの適切な扱いを保証する。例えば、BigQueryでのselect *の使用を制限するなど、データの適切な利用を促進している。
→Streamlitを含む各種ツールに関しては、相談窓口を設けることで、社内のデータ活用を支援している。Streamlitを通じてデータカタログの提供も行われており、社員が必要とする情報に容易にアクセスできるようになっている。
参考: Qiita記事 参考:https://qiita.com/Ayumu-y/items/77797dc232b0a4e4503b


以上が第6回のデタマネの議論内容でした!
冒頭と重なりますが、データ利用者の活用方法のサポートまでがデータ共有なのだという話は、身に沁みました。
また、データモデル回でもあったように、見ただけで分かるようなデータを作っていくことが大事なんだと痛感し、学びになりました。

次回第7回予告

次回第7回のデタマネ会は、
Snowflake プリンシパルセキュリティアーキテクト 柳瀬さんより
「Snowflake Horizon」に関するセッション
を実施いただきます!!

日時は通常の第一金曜日ではなく、3/6(水)20:00- になりますのでご注意ください

次回もみなさまのご参加お待ちしてます💡


この記事が気に入ったらサポートをしてみませんか?