Airflowを使った並行処理で効率的にデータを処理する事例紹介
データ基盤の要素の中で血しょうのような働きをするApache Airflow。
すごく勉強になる記事がありましたので紹介します。
1. 概要
大量のデータを効率的に処理・変換する能力はとても重要になっています。
そんな状況では必然に拡張可能で堅牢なデータワークフローが必要です。
分散したデータソースを一貫性がありアクセスしやすいリポジトリに集中することがこのプロジェクトの背景です。
ワークフローのオーケストレーションにApache Airflowを活用し、安全で拡張性のあるストレージとしてAmazon S3を用い、洞察力のあるアナリティクスのためにPower BIを、そして強力なデータマイニングにWekaを使うことで、現代のデータエンジニアリングのお手本のようなプロジェクトを目指しました。
本記事を読むとデータエンジニアリング分野の有益な知見が得られます。
2. プロジェクトの目的と要件❄️
よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます!