見出し画像

データの価値が生まれる場所とは

本記事は、trocco Advent Calendar 2022に捧げます。

データを取り巻く環境について、個人的に2022年に大きかったトピックを振り返ったら、「データの価値はどこで生まれるか」のメモになりました。

* * *

データを扱う現場にいる身として今年最も印象的な変化だったのは、サービス運営用のデータベース(以下、DB)をニアリアルタイムで同期する機構や構想を、各社がリリース・発表したことだ。

※ Microsoft Azureについて追えておらず、申し訳ありません

これは素直に嬉しい。

多分、成長しているサービスほど、DB運用においては不測の事態が発生しやすい。当然、DBの同期も影響を受ける。

統計を取ったことはないが、集計遅延やそれに伴うインシデント対応など、データ分析運用の負荷の結構な部分は、データ元となるサービスDBの同期に起因しているのではないだろうか。

DBを同期するための開発や運用にはそれなりの工数がかかるが、どうしてもサービス運営と比較すると優先順位を高めにくく、おざなりになるケースも生じやすいと思う。

だから自動的にDBを同期できるサービスが提供されるのは、素晴らしいことだと思う。データ活用のための障害が、また1つ解消される。

* * *

さて、ここからが本題。

AWSが提唱するようなZero ETL構想が実現したら、troccoを初めとしたデータ統合自動化サービスは不要になってくるのだろうか?

否。むしろ増える、と考える。

データ活用のニーズの多くは、今、手元にないデータを掛け合わせるところにある。例え、1つのサービスに関するデータがZero ETLになったとしても、社内の様々なデータを掛けわせるニーズが発生する。例え、社内の全データがZero ETLになったとしても、次は社外のデータと掛け合わせるニーズが発生する。無限に辺境があるのだ。

また、データ活用の成否は、データをユーザーが使いやすい形に仕上げられるかどうかに懸かっている。その形に仕上げるためには、ほぼ確実に人手(職人芸)が必要で、ETL的なプロセスで独自の知恵と工夫を反映する必要がある。AWS的にはZero ETLでも、きっとその後に、現場やエンドユーザーに近い場所にいる誰かが、何らかのETLやELTを行うだろう。

つまり、データ活用のニーズはフロンティアから発生しやすく、データ活用の成否はラストワンマイルで決まりやすい。

だから、サービス側でZero ETLが進むのは、データ活用を始める上での基礎がバリアフリーになるだけで、troccoのようなツールにとっては基本的には追い風だと僕は考えている。Zero ETLの後のOneを生み出すのがデータ活用だ。

今年、各社のZero ETLへの動きが鮮明になった。これらのサービス群が本格的にリリースされて、標準的に使われるようになるのは、もう数年先だろう。

ただ、その流れ自体は、遅かれ早かれ確実に形になっていくだろうし、データを価値に変えてなんぼの自分にとっては歓迎するべき流れである。troccoも益々使うだろう。

こうして今年も、分析屋データサイエンティストが、己の才覚を発揮しやすい環境がまた一つ整った。本当にありがたいことだ。

とりあえず弊社の場合は来年以降、Google Cloudの基盤でData Streamを導入してAmazon AuroraのDBを同期できると色々ハッピーだなと思う。

グッドニュースが多い環境に身を置けるのは、心より嬉しいことです。
みなさまにも、ETL周りで幸が訪れますように。
それでは良いお年を!


サポートされた者たちから受け継いだものはさらに『先』に進めなくてはならない!!