見出し画像

Zero ETL:ETLが存在しなくて良い世界線を考える。

お疲れ様です。Shinです。数か月前の話なんですけど、近所のスーパーの梨が100円きってて味がアレなんかなぁ…と思って試しに買ってみたらちゃんと美味しかったです。梨ってむいたあと塩水にさらすと変色を防げるんですね。

A Zero ETL future…

さて、2022年末、メガクラウドの代表格であるAmazon Web Services (AWS) による祭典 AWS re:invent にて、Zero ETL という概念が提唱され、データエンジニアリングの界隈では注目を集めたのではないかと思います。

私の記事では、たびたびシステム間のデータ流通に関するトピックを取り上げてきました。例えば、公共領域におけるデータ連携基盤の推進に向けた動向や、信頼性あるデータ活用アーキテクチャを実現する上でのデータ連携基盤の活用などについて過去に取り上げています。

データ連携基盤と言えど、期待される役割によって、データ連携に焦点を置いたEAI (Enterprise Application Integration) として扱われたり、データ加工に焦点を置いたETL (Extract, Transfer, and Load) として扱われたり、あるいはその両方であったり、その実態は様々です。

さて、Zero ETL はこれら既存の構造を覆すものになるのでしょうか?

Zero ETL とは何か?

そもそも Zero ETL とは何でしょうか?AWSのHPに記載がありましたので、一旦これを読んでみることにします。

ゼロ ETL は、ETL データパイプラインを構築する必要性を排除し、または最小限に抑える一連の統合です。抽出、変換、ロード (ETL) は、さまざまなソースからのデータを結合、クリーニング、正規化して、分析、人工知能 (AI)、機械学習 (ML) のワークロードに対応できるようにするプロセスです。従来の ETL プロセスは、開発、メンテナンス、スケールに時間がかかり、複雑です。一方、ゼロ ETL 統合では、ETL データパイプラインの作成を必要とせずに、ポイントツーポイントのデータ移動を円滑に行うことができます。また、ゼロ ETL を使用することで、データを移動することなく、データサイロ全体でクエリを実行できるようになります。

aws ゼロ ETL とは何ですか?

相変わらずのAWS文学って感じの文章ですね。全然 Zero ETL には関係ないですが、カップラーメンをAWS風に説明してみたという記事を思い出してしまいました。

カップ麺はさておき、ようは Zero ETL とは、ETLという仕組みを構築せずに、ETL同等の処理を実現するアーキテクチャを指していると見受けられます。ETLというツールの存在は否定しつつも、その役割(つまり抽出・変換・出力という処理)の存在は否定していないのがポイントです。

AWSサービス群の中には、ETLサービスとしてAWS Glueというものがあります。Zero ETL の世界観の中では、AWS Glueを使わなくともデータが繋がり、流通するアーキテクチャが実現できるようになるのでしょう。

Zero ETL を実現する方法として、例としてAmazon RedshiftとAmazon Aurora間の Zero ETL 統合が挙げられます。分析対象のデータがRDBのAmazon Auroraに格納されたのち、分析用DWHであるAmazon Redshiftに連携/統合されることで、ほぼリアルタイムにデータの分析を実現できるというものです。

その他にもAWSのHPでは、Amazon Athena、Amazon S3、Amazon Kinesis Data Streamsなどのいくつかのデータストア系のサービスにて、Zero ETL をサポートする仕組みを用意していると紹介されています。

Zero ETLの世界線は実現するか

現状、原則AWSサービスを中心としてシステムアーキテクチャを描く場合には、AWSがサポートするZero ETLを実現することは難しくないように見えます。AWSのサービスリリースのスピードは凄まじく、あらゆるAWSサービスは Zero ETL のコンセプトに従って双方向的に繋がっていくことでしょう。

すると、次に巻き込むべきはAWSで作られたシステムアーキテクチャの外部です。例えば、SaaSであったり、オンプレミス環境のソフトウェアだったりをどう繋いでいくかが注目されます。

とはいえ、SaaSは裏側の仕組みをAWSで作っている場合には、全くの外部というわけではないため、近く何らかの連携方法が作られるかもしれません。SnowflakeとかとはもうETLなしに繋がる方法はありそうですよね。詳しい方、ぜひ教えてください。

そうすると、最後の関門はオンプレ環境になるのでしょうか。

最後に

考える。とタイトルには書きましたが、深い考察というよりは「何となくこうなるんじゃね、知らんけど」という感じの雑感的な内容になってしまいました。

近年、ETLでなく「ELT」の概念や、それに基づいた「dbt」という製品が注目されています。このあたりの動向も踏まえ引き続き情報を追っていきたいところです。


この記事が気に入ったらサポートをしてみませんか?