モダンなデータ基盤のための新しいアーキテクチャー: 2020 (v1)

2023年1月13日 16:37

みなさん、こんにちは、Salesforceでプロダクトマネージャーをしている深田です。データ/AIプラットフォームを勉強している中で、ちょうど一年前にモダンデータスタックの歴史についてdbtのCEOの記事をざっくり翻訳しました👇

今回は、この現在急成長しているデータ/AIプラットフォーム領域における大きな変化、トレンドにどう向き合えば良いのかをブループリントを軸にa16zが解説した記事がとても勉強になったので、抄訳しました🥳

イントロダクション

テクノロジー業界において、私たちは大規模で複雑なソフトウェアシステムを構築することが得意でした。その証拠として今、私たちは、データを中心に構築された巨大で複雑なシステムの台頭を目の当たりにしています。すなわち、システムによってもたらされる主なビジネス価値は、ソフトウェアが直接もたらすのではなく、データの分析によってもたらされます。このトレンドは、新しい職種の創出、顧客の支出の変化、データ関連のインフラやツールを提供する新しいスタートアップの出現など、業界全体で急速に影響を及ぼしています。

実際、現在最も急成長しているインフラ関連のスタートアップの多くは、データを管理するための製品を開発しています。これらのシステムは、データドリブンな意思決定を可能にし（アナリティクスシステム）、機械学習を含むデータドリブンの製品を推進します（オペレーションシステム）。データを運ぶパイプラインから、データを格納するストレージソリューション、データを分析するSQLエンジン、データを理解するためのダッシュボード、データサイエンスや機械学習のライブラリ、自動化されたデータパイプライン、データカタログなど、さまざまな製品があります。

しかし、上に挙げたようなエネルギーと勢いがあるにもかかわらず、このトレンドの最先端にあるテクノロジーは何か、そしてそれらが実際にどのように使われているかについては、まだまだ議論の余地があります。この2年間、私たち(筆者)は何百人もの創業者、企業のデータリーダー、その他の専門家に話を聞き、20人以上の実務担当者に現在のデータスタックについてインタビューも行いました。この記事では、その成果を共有し、業界を前進させる技術者を紹介します。

データ基盤市場の巨大な成長

今回の記事の主な動機の1つは、ここ数年でデータインフラが猛烈な成長を遂げていることです。ガートナーによると、データインフラへの支出は2019年に過去最高の660億ドルに達し、インフラソフトウェア支出全体の24%（さらに増加中）を占めます。Pitchbookによると、データインフラ新興企業上位30社は、過去5年間で80億ドル以上のベンチャーキャピタルを調達しており、その総額は350億ドルに上ると言われています。

最も重要なことは、データ（およびデータシステム）は、シリコンバレーのハイテク企業だけでなく、従来の産業界においても、業績に直接貢献しているということです。

統一されたデータ基盤のアーキテクチャ

データインフラ市場のエネルギー、リソース、成長により、データインフラ用のツールやベストプラクティスも信じられないほど急速に進化しています。そのため、すべてのピースがどのように組み合わされているのか、まとめて理解することは困難です。従って、今回はそのヒントを提供することを目的にしています。

私たちは、主要なデータ組織の実務担当者に、（a）社内の技術スタックがどのようなものか、（b）ゼロから新たに構築する場合にそれは異なるか、を尋ねました。

その結果、以下のようなリファレンスアーキテクチャ図が出来上がりました。

図の列の定義は以下の通り。

このアーキテクチャでは、ほとんどの本番環境で見られるよりもはるかに多くのことが行われています。この図は、すべてのユースケースにおいて、統一されたアーキテクチャの全体像を示すものであり、最も洗練されたユーザはこれに近いものを手に入れることができるかもしれませんが、ほとんどのユーザはそうではありません。

この記事の残りの部分は、このアーキテクチャをより明確にすることと、それが実際にどのように実現されているかを説明します。

アナリティクス、AI/ ML、そして統合？

データインフラは、ハイレベルで二つの目的があります。

アナリティクスユースケース：ビジネスリーダーがデータを活用してより良い意思決定を行えるようにすること
オペレーションユースケース：機械学習を含む顧客向けアプリケーションにデータインテリジェンスを組み込むこと

このような幅広いユースケースを中心に、2つの並行したエコシステムを形成してきました。データウェアハウスは、アナリティクスエコシステムの基盤を形成しています。ほとんどのデータウェアハウスは、構造化された形式でデータを保存し、通常はSQL（Pythonの人気も高まっています）を使用して、迅速かつ容易にコアビジネス指標からインサイトを生成するように設計されています。データレイクは、オペレーションエコシステムの基幹となるものです。データを生のまま保存することで、特注アプリケーションやより高度なデータ処理ニーズに必要な柔軟性、拡張性、パフォーマンスを実現します。データレイクは、Java/Scala、Python、R、SQLなど、幅広い言語で運用されています。

これらのテクノロジーにはそれぞれ信者がいて、どちらか一方を中心に構築すると、他のスタックに大きな影響を与えることが分かっています（これについては後で詳しく説明します）。しかし、本当に興味深いのは、最新のデータウェアハウスとデータレイクは互いに似通ったものになりつつあるということです。両者とも、コモディティストレージ、ネイティブな水平スケーリング、半構造化データ型、ACIDトランザクション、インタラクティブなSQLクエリなどを提供します。

今後重要になるのは、データウェアハウスとデータレイクがひとつに収束するのか？です。つまり、データウェアハウスとデータレイクはスタックの中で交換可能な存在になりつつあるのでしょうか？一部の専門家は、データウェアハウスとデータレイクの融合が進み、テクノロジーやベンダーの状況が簡素化されると考えています。また、言語やユースケースなどの違いから、今後も並行したエコシステムが続くと考える専門家もいます。

Architectural Shifts

データインフラは、クラウド化、オープンソース化、SaaS型ビジネスモデルなど、ソフトウェア業界全体で起きているアーキテクチャの大きな変化に影響を受けています。しかし、それらに加えて、データインフラストラクチャに特有の変化も数多く存在します。これらはアーキテクチャを前進させ、その過程で（ETLツールのような）市場を不安定にすることがよくあります。

新しいケーパビリティー

また、新しいツールやコアシステムを必要とする、一連の新しいデータ機能も生まれています。これらのトレンドの多くは、新しいテクノロジーのカテゴリー、そして市場をゼロから創り出そうとしています。

モダンなデータ基盤を作るためのブループリント

このアーキテクチャをできるだけ実用的なものにするため、私たちは専門家に、データ組織の規模、高度さ、対象となるユースケースやアプリケーションに応じた共通の「ブループリント」（実装ガイド）を体系化するよう依頼しました。

ここでは、3つの共通するブループリントの概要を説明します。

クラウドネイティブのデータウェアハウスと分析ユースケース、モダンなビジネスインテリジェンス
データレイクを中心に構築された分析および運用のユースケースの両方をカバーするマルチモーダルデータ処理
運用システムとAIおよびMLスタックの新しいコンポーネント

Blueprint 1: モダンビジネスインテリジェンス

あらゆる規模の企業に対応するクラウド型ビジネスインテリジェンス - 使いやすく、安価に始められ、これまでのデータウェアハウスのパターンを超える拡張性

これは、データチームや予算が比較的小規模な企業にとって、既定の選択肢となりつつあります。また、クラウドの柔軟性と拡張性を活用し、レガシーデータウェアハウスからこのブループリントに移行する企業も増えています。

主なユースケースとしては、レポーティング、ダッシュボード、アドホック分析などがあり、主にSQL（一部Python）を使用して構造化データを分析します。

このパターンの強みは、先行投資の少なさ、スピード、始めやすさ、そして人材の豊富さです。このブループリントは、大規模なデータサイエンス、機械学習、ストリーミング/低遅延アプリケーションなど、より複雑なデータニーズを持つチームにはあまり適していません。

Blueprint 2: マルチモーダルデータ処理

分析、運用、ユースケースの両方をサポートする進化したデータレイク - Hadoop難民のためのモダンインフラストラクチャとも呼ばれる

このパターンは、高度で複雑なデータニーズを持つ大企業やハイテク企業で多く見られます。

ユースケースとしては、ビジネスインテリジェンスに加えて、運用型AI/ML、ストリーミング/レイテンシーセンシティブ分析、大規模データ変換、多様なデータ型（テキスト、画像、動画など）の処理などより高度な機能を、様々な言語（Java/ Scala、Python、SQL）で実現します。

このパターンの強みは、多様なアプリケーション、ツール、ユーザー定義関数、デプロイのコンテキストをサポートする柔軟性、および大規模データセットに対するコスト優位性である。このブループリントは、立ち上げ間もない企業や小規模データチームには適していない。保守には多大な時間、費用、専門知識が必要だからだ。

Blueprint 3: AIと機械学習

機械学習モデルの堅牢な開発、テスト、運用をサポートする全く新しいワークインプログレススタック

機械学習に取り組むほとんどの企業は、このパターンの技術のサブセットを既に使用しています。機械学習をヘビーに活用している企業は、このブループリント全体を実装し、新しいツールも自社開発に頼っていることが多い。

コアとなるユースケースは、社内および顧客向けアプリケーションのためのデータを活用した機能に焦点を当て、オンライン（すなわち、ユーザーの入力に応答して）またはバッチモードで実行されるものである。

このアプローチの強みは、あらかじめパッケージ化されたMLソリューションとは対照的に、開発プロセスを完全に制御できること、ユーザーにより大きな価値をもたらし、AI/MLを中核的かつ長期的な機能として構築できることです。このブループリントは、MLをテストしているだけの企業、小規模な社内ユースケースに使用している企業、ベンダーに頼ることを選択している企業にはあまり適していません - 規模に合わせて機械学習を行うことは、今日最も困難なデータ問題の1つです。

今後の展望

データ基盤は、アーキテクチャのレベルで急速かつ根本的に変化しています。最新のデータスタックを構築するためには、多様で膨大な選択肢が必要です。そして、正しい選択をすることは、これまで以上に重要です。純粋にコードに基づいたソフトウェアから、コードとデータを組み合わせて価値を提供するシステムへと移行が進んでいるからです。効果的なデータ処理能力は、今やあらゆる分野の企業にとって重要な課題であり、データで勝利することは、持続的な競争優位をもたらします。

この記事が、データ組織が現在の状況を理解し、ビジネスのニーズに最適なアーキテクチャを実装し、この分野で進化を続ける将来に向けて計画を立てるための道標になることを願っています。

さいごに

いかがでしたでしょうか。こちらは2020年に書かれた記事であり、アーキテクチャーや技術がアップデートされたバージョンも出されています。プラットフォームの概念がデータ領域まで拡張されていることに関する考察もものすごく面白かったので、次はこちら👇を抄訳しようと思います。

最後まで読んでいただきありがとうございました。
面白かった人はnoteのスキとTwitterのフォローをお願いします！
今後もnoteとTwitterでプロダクトマネジメントやデータ分析に関して情報を発信していくのでよろしくお願いします🙌

Tweets by fkohe1