2022年、最新データスタックの未来を考える

The Future of the Modern Data Stack in 2022 | by Prukalpa | Jan, 2022 | Towards Data Science

2021年に知っておくべき6つのビッグアイデアを特集

年末年始の休暇でデータの世界が落ち着いたので、私もこの1年を振り返って考えてみました。その結果、「今年は何て素晴らしい年だったんだろう!」と思わずにはいられませんでした。

2021年のデータは5年分の変化があったと思うのは私だけでしょうか?

部分的にCOVIDの時間があり、1ヶ月が1日と1年を同時に感じます。瞬く間に新しいバズワードがデータ・ツイッターを席巻するようになりました。また、ベンチャーキャピタルからの資金が殺到したことや、スタートアップの資金調達額が異常に多かったことも、今年のデータブームに拍車をかけていました。

あまりにも多くの宣伝がなされているため、どのトレンドが今後も継続するのか、またどのトレンドが発生と同時に消えていくのかを知ることは困難です。

このブログでは、2022年に向けて最新のデータスタックについて知っておくべき6つのアイデアを紹介します。これらのアイデアは、昨年データの世界で爆発的に広まったもので、今後も消えそうにありません。

この言葉を知っている人は多いと思いますが、その意味を正確に知らない人もいるでしょう。データメッシュ」というアイデアは、Thoughtworks社の新興技術担当ディレクターであるZhamak Dehghani氏が2019年に書いた2つのブログから生まれました。

モノリシックなデータレイクを超えて、分散型のデータメッシュに移行する方法

データメッシュの原理と論理的なアーキテクチャ

その核となる考え方は、企業が中央集権的なデータウェアハウスやデータレイクから、セルフサーブデータと「フェデレートされたコンピュテーショナルガバナンス」によって駆動される「ドメイン指向の分散型データ所有権とアーキテクチャ」に移行することで、よりデータドリブンになれるというものです。

このように、データメッシュにまつわる言葉はすぐに複雑になるため、「データメッシュとは何か」という記事には事欠きません。

データメッシュの考え方は、2019年から静かに広まっていましたが、2021年に突然どこにでも出てくるようになりました。Thoughtworks Technology Radarは、わずか1年でData Meshのステータスを「Trial」から「Assess」に移行させました。Data Mesh Learning Communityが立ち上がり、そのSlackグループには45日間で1,500人以上のサインアップが集まりました。Zalandoは、データメッシュへの移行方法についての講演を開始しました。

やがてTwitterでは、データリーダーたちが、データメッシュは革命的なのか、それとも馬鹿げているのかという議論を交わし、ホットな話題が飛び交うようになりました。

2022年には、大量のプラットフォームがリブランディングを行い、「究極のデータメッシュプラットフォーム」として自社のサービスを提供するようになると思います。しかし、データメッシュは既製のプラットフォームやサービスではありません。データメッシュは、分散所有権、ドメインベースの設計、データの発見性、データ製品の出荷基準などの素晴らしいコンセプトを持つ設計概念であり、これらはすべて、あなたの組織で運用してみる価値があります。

そこで、私からのアドバイスです。データリーダーとしては、市場に出回るであろう誇大広告を鵜呑みにするのではなく、概念的なレベルでの第一原理にこだわることが重要です。あるチーム(特に小規模なチーム)がSnowflakeとdbtで構築された完全に集中化されたデータプラットフォームによってデータメッシュアーキテクチャを実現しても、他のチームが同じ原則を活用して複雑なマルチクラウド環境に「データメッシュ」を統合しても、私は驚きません。

メトリクスは、企業の成長を評価し、推進するために不可欠なものですが、何年も悩まされてきました。メトリクスは、異なるデータツールに分散していることが多く、同じメトリクスでもチームやダッシュボードによって定義が異なります。

2021年になってようやく、最新のデータスタックがこの問題を解決する方法について語られるようになりました。メトリクスレイヤー、メトリクスストア、ヘッドレスBIなど、ここでは紹介しきれないほど多くの呼び名があります。

始まりは1月、ベースケースがメトリクス問題を解決するための新しいアプローチである「ヘッドレス・ビジネス・インテリジェンス」を提案した時でした。その数ヶ月後、Mode社のBenn Stancil氏が、今日のデータスタックに欠けているメトリクス層について語りました。

この時、事態は大きく進展しました。その4日後、Falkon社のMona Akmal氏とAakash Kambuj氏が、メトリクスの一級市民化と「最新のメトリクススタック」についての記事を発表しました。

その2日後には、Airbnbがこの問題を解決するために、Minervaという国産のメトリクス・プラットフォームを構築していることを発表しました。他の著名なテック企業もすぐに追随し、LinkedInの「Unified Metrics Platform」、Uberの「uMetric」、Spotifyの「新しい実験用プラットフォーム」でのメトリクスカタログなどを発表しました。

この熱気が収まったと思った矢先、10月にドリュー・バニン(dbtのCPO兼共同創業者)がdbtcoreのPRを開始しました。彼は、dbtが自社製品にメトリクスレイヤーを組み込むことをほのめかし、BennやBase Caseによる基礎的なブログへのリンクも掲載していました。このPRは大きな反響を呼び、最新のデータスタックでより良いメトリクスレイヤーを構築するための議論が再燃しました。

一方で、この分野で競争するために、多くの初期段階のスタートアップ企業が立ち上がっています。これまでのところ、Transformが最大の知名度でしょうが、Metriql、Lightdash、Supergrain、Metloも今年発売されました。また、GoodData社のヘッドレスBIへの参入など、大手企業もメトリクス層での競争に向けて動き出しています。

私は、メトリクス・レイヤーがついにモノになることを非常に楽しみにしています。数ヶ月前、Fivetran社のGeorge Fraser氏は、「すべてのメトリクスストアはBIツールに進化する」という不評な意見を述べていました。私は完全に同意しているわけではありませんが、BIと緊密に統合されていないメトリクス・レイヤーが一般的になることはないだろうと思っています。

しかし、既存のBIツールには、外部のメトリクス・レイヤーを自分のツールに統合する動機付けがありません...これは鶏と卵の問題です。独立したメトリクスレイヤーは、BIツールにフレームワークの採用を促すのに苦労し、何年も前にLookerが強いられたようにBIを構築することを余儀なくされるでしょう。

dbtは、少なくとも最新のBIツール(Preset、Mode、Thoughtspotなど)がdbtのメトリクスAPIに深く統合されるのを促すのに十分なディストリビューションをすでに持っているので、大規模なBIプレイヤーにとっては競争圧力になるかもしれません。

また、メトリクスレイヤーは変革のプロセスと深く関わっているので、直感的にこれは理にかなっていると思います。私の予想では、2022年にはより多くの変換ツールでメトリクスが第一級市民として扱われるようになると思います。

長年にわたり、データチームがシステムを構築する方法はETL(Extract, Transform, Load)でした。まず、サードパーティのシステムからデータを取り出し、それをクリーンアップした後、ウェアハウスにロードします。これは、データウェアハウスをクリーンで整然とした状態に保つという点では優れていましたが、ウェアハウスにデータを取り込むのに時間がかかることも意味していました。時にはデータチームが生データをシステムに取り込み、後で処理したいと思うこともありました。

そのため、多くの企業が2年前にETLからELT(Extract, Load, Transform)に移行しました。データを先に変換するのではなく、生データをデータレイクに送り、特定のユースケースや問題に合わせて後から変換するようになったのです。

2021年には、この考え方がさらに大きく進化した「リバースETL」が登場しました。このコンセプトが注目され始めたのは、2月にAstasia Myers(Quiet CapitalのFounding Enterprise Partner)がリバースETLの出現について記事を書いた時でした。

それ以来、HightouchとCensus(いずれも2020年12月にローンチ)は、リバースETLの領域を自分のものにしようと争って大炎上しています。Censusは、2月に1600万ドルのシリーズAを調達したことを発表し、Hightouchをターゲットにした一連のベンチマークレポートを発表した。これに対してハイタッチは、1年以内に3回、合計5,420万ドルを調達して対抗しました。

HightouchとCensusは、今年のリバースETLの話題を独占していますが、この分野で活躍しているのは彼らだけではありません。その他の注目すべき企業としては、Grouparoo、HeadsUp、Polytomic、Rudderstack、Workato(11月に2億ドルのシリーズEをクローズ)などが挙げられます。Seekwellは3月にThoughtspotに買収されました。

私は、現代のデータスタックにおける「ラストマイル」の問題を解決しているすべての製品に興奮しています。これは、データスタックの基本的な構成要素(ウェアハウス、トランスフォーメーションなど)がいかに成熟しているかを示す素晴らしい兆候です。

私があまりよくわからないのは、データを出し入れする基本的な機能が似ていることを考えると、リバースETLは独立したスペースにすべきなのか、それともデータインジェスチョンツールと組み合わせるべきなのかということです。Hevodata社のような企業は、すでにインジェストとリバースETLの両方のサービスを同一製品で提供し始めており、近いうちにこの分野での統合(またはより深い市場での提携)が行われるのではないかと思います。

ここ数年、データカタログをめぐる議論は、"データカタログは時代遅れか?"というものでした。そして、その答えは「イエス」だと考えるのは簡単でしょう。有名な記事では、Barr Mosesが「データカタログは死んだ」と主張し、Michael Kaminskyが「データ辞書は必要ない」と主張しています。

その一方で、データカタログやメタデータに関する話題はかつてないほどに盛り上がっている。あまりにも多くのデータカタログが存在するため、私たちのチームのRohanは「カタログのカタログ」であるthedatacatalog.comを作成しましたが、これは馬鹿げていると同時に完全に必要なものだと感じています。では、データカタログは死んだのか、それともこれまで以上に強くなったのか、どちらでしょうか?

今年は、第3世代のデータカタログとアクティブなメタデータという2つの新しいコンセプトが生まれたことで、データカタログは新たな命を得ました。

2021年の年頭に、私は「モダンデータスタックのためのモダンメタデータ」という記事を書きました。その中で、私たちは第3世代のデータカタログに入りつつあるという考えを紹介しました。これは、普及している旧来のオンプレミス型データカタログからの根本的な変革です。この新しいデータカタログは、多様なデータ資産、「ビッグメタデータ」、エンドツーエンドのデータの可視化、そしてコラボレーションを組み込んだものです。

この考えは、ガートナー社が今年発表した「メタデータ管理ソリューションのマジック・クアドラント」を廃止し、「アクティブ・メタデータのマーケット・ガイド」に置き換えるという大きな動きによって、さらに強化されました。これにより、ガートナー社は「アクティブ・メタデータ」をデータ分野の新しいカテゴリーとして導入しました。

その違いは何でしょうか?旧来のデータカタログは、メタデータを収集し、それらをサイロ化された「パッシブ」なツールにもたらします。アクティブなメタデータ・プラットフォームは、メタデータをメタデータ・レイクのような単一のストアにまとめるだけでなく、「リバース・メタデータ」を活用して日々のワークフローでメタデータを利用できるようにするという、双方向のプラットフォームとして機能します。

第3世代カタログについて初めて記事にして以来、第3世代カタログは、最新のデータカタログとは何かをめぐる議論の一部となっています。RFPの中にもこの用語が出てきました。

匿名化されたRPFの一例。(画像提供:Atlan)

それと同時に、VCはこの新しい分野への投資に熱心になりました。例えば、Collibra社の2億5000万ドルのシリーズG、Alation社の1億1000万ドルのシリーズD、そしてAtlan社の1600万ドルのシリーズAなど、メタデータ管理の分野ではあらゆる分野で資金調達が行われ、大きな成長を遂げています。また、StemmaやAcryl Dataのようなシード段階の企業も、既存のオープンソースプロジェクトをベースにしたメタデータ管理ソリューションを構築するために設立されました。

データの世界は常に多様であり、人やツールの多様性は常に混沌をもたらします。メタデータの分野で会社を設立することに人生を捧げてきた私は、おそらく偏見を持っているでしょう。しかし、現代のデータスタックの混沌とした状態に秩序をもたらす鍵は、メタデータをどのように利用し、活用して、現代のデータ体験を生み出すことができるかにあると、私は心から信じています。

ガートナー社は、このカテゴリーの将来性を一文でまとめています。"スタンドアロンのメタデータ管理プラットフォームは、データカタログの拡張から、メタデータの「どこでも」オーケストレーション・プラットフォームへと焦点を変えていくだろう。"

第2.0世代のデータカタログは受動的でサイロ化されていましたが、第3.0世代では、ユーザーが必要とする場所で、いつでもコンテキストを利用できる必要があるという原則に基づいて構築されています。第3世代のカタログでは、ユーザーに別のツールを使わせるのではなく、メタデータを活用してLooker、dbt、Slackなどの既存のツールを改善し、インテリジェントなデータ管理システムの夢を現実のものにします。

2021年にはこの分野で多くの活動や資金提供が行われましたが、2022年には圧倒的な存在感を持つ真の第三世代データカタログ(アクティブなメタデータプラットフォーム)が登場すると確信しています。

最新のデータスタックが主流になり、データが日常業務の大部分を占めるようになると、データチームもそれに合わせて進化していきます。データチームはもはや「IT担当者」ではなく、会社の他の部分とは別に活動しています。しかし、ここで疑問が生じます。データチームは社内の他の部門とどのように連携すべきなのか?データチームは、「サービスの罠」に陥ってしまうことがよくあります。つまり、データを使って洞察力を高めたり、インパクトを与えたりするのではなく、統計データを作成するための絶え間ない質問や要求に悩まされてしまうのです。

Emilie Scharioがデータチームで働くことの現実を象徴するイメージ。(Image by Atlan from MDSCON 2021.)

2021年、Amplify PartnersのEmilie Schario氏、MeltanoのTaylor Murphy氏、Stitch FixのEric Weber氏は、データチームをこの罠から脱却させる方法として、データチームをプロダクトチームとして再考することを語りました。彼らはまず、Locally Optimisticのブログでこのアイデアを説明し、その後、MDSCON、dbt Coalesce、Future Dataなどのカンファレンスで素晴らしい講演を行いました。

製品は、どれだけ多くの機能を持っているか、エンジニアがどれだけ早くバグを取り除けるかではなく、どれだけ顧客のニーズを満たしているかで評価されます。同様に、データプロダクトチームは、質問に答えたり、ダッシュボードを構築したりするのではなく、ユーザー(企業内のデータ利用者)を中心に考えるべきです。これにより、データチームは、その場限りの質問や要望ではなく、体験、採用、再利用性に焦点を当てることができます。

このように、サービスの罠から抜け出し、データチームの方向性をユーザーに合わせることは、今年のデータ業界に大きな影響を与えました。誰を雇うか、どうやって目標を設定するかなど、「データ・プロダクト・チーム」を作ることの意味について、多くの人が語り始めました。

2021年のトレンドとして注目されているものの中で、私が最も期待しているのがこれです。今後10年間で、データチームは組織の布陣の中で最も重要なチームの一つとして登場し、経済の最前線にあるデータ駆動型の近代的な企業を動かしていくだろうと考えています。

しかし、現実には、データチームはサービスの罠に陥っており、データプロジェクトの27%しか成功していません。この問題を解決する鍵は、「データプロダクト」という考え方にあると思います。データチームは、他のチームのために、再利用可能で再現性のある資産を構築することに集中します。これは、ユーザーリサーチ、スケーラビリティ、データプロダクトの出荷基準、ドキュメントなどに投資することを意味します。

このアイデアは、モンテカルロ社のバー・モーゼス氏が2019年に初めて語った「データダウンタイム」から生まれたもので、「データダウンタイムとは、データが部分的であったり、誤っていたり、欠落していたり、その他不正確であったりする期間のことを指します」と述べています。大きなプロジェクトの翌朝に届く、"おい、データがおかしいぞ... "というメールのことです。

データのダウンタイムは、何年も前からデータチームの通常の生活の一部でした。しかし今では、多くの企業が文字通り業務のあらゆる面でデータに依存しているため、データが動かなくなると大変なことになります。

しかし、誰もが問題を未然に防ぐのではなく、問題が発生したときに対応するだけでした。そこで登場したのが、「ダウンタイムを防ぐために、インシデントを監視・追跡し、トリアージする」というデータ・オブザーバビリティの考え方です。

データオブザーバビリティが単なるアイデアから、現代のデータスタックの重要な部分になるまでのスピードが、今でも信じられません。(最近では、「データ信頼性」や「データ信頼性エンジニアリング」とも呼ばれるようになりました)。

この分野では、これまで存在していなかった企業が、18ヶ月間で2億ドルの資金を調達し、多くの企業を抱えるようになりました。その中には、Acceldata、Anomalo、Bigeye、Databand、Datafold、Metaplane、Monte Carlo、Sodaなどが含まれています。また、この分野の動向を把握するために、新しい「データ・オブザーバビリティ・カンパニー」のリストを作成する人も出てきました。

この2年間で、データチームは、生産性を向上させるためのツールは、あってもいいものではなく、なくてはならないものであることに気づいたのだと思います。結局のところ、データの専門家は最も求められている人材の一つなので、パイプラインのトラブルシューティングに時間を費やすべきではないのです。

では、データオブザーバビリティは、将来的に最新のデータスタックの重要な要素となるのでしょうか?もちろんです。しかし、データ観測性は独自のカテゴリーとして存在し続けるのか、それともより広いカテゴリー(アクティブなメタデータやデータの信頼性など)に統合されるのか。これが私にはよくわからない点です。

理想的には、すべてのメタデータが1つのオープンなプラットフォームにあれば、さまざまなユースケース(データのカタログ化、観測性、リネージなど)に活用できるはずです。私は昨年、メタデータ・レイクについての記事でその考えを書きました。

とはいえ、今日、これらのスペースが独立して必要とするイノベーションは山のようにあります。私の感覚では、2022年には断片化が進み、その後数年で統合が進むと思います。

混沌としてクレイジーに感じることもあるかもしれませんが、今日はデータの黄金時代です。

この1年半の間に、私たちのデータツールは飛躍的に成長しました。私たちは最新のデータスタックについて大騒ぎしていますが、それには理由があります。以前のデータスタックは、正直、壊れているようなものだったので、このツールの大きな飛躍は、まさにデータチームが必要としていたものです。

私の考えでは、データの世界の次の「デルタ」は、現代のデータカルチャースタックです。これは、データの多様な人間が新しいデータスタックに取り組む際に、効果的にコラボレーションし、生産性を向上させるためのベストプラクティス、価値観、文化的儀式です。

しかし、データを活用した共同作業について考えることができるのは、「データを活用する」ということに慣れてからです。2022年にはどんな新しい展開やトレンドが生まれるのか、今から楽しみですね。

この記事が気に入ったらサポートをしてみませんか?