見出し画像

CS_DATABASE_データリネージという考え方 #347日目

データマネジメントに欠かせない考え方であるデータリネージについて整理します。リネージとは「血統・系統」といった意味で、データリネージを直訳すると「データの血統」です。

一定期間のデータの流れを追跡し、データがどこから発生し、どのようなETL, ELTを経ていて、最終的な宛先(どのような分析にかけられるか)を明確に把握できるようにします。

データリネージを適切に行き届かせると以下のようなメリットがあります。

①異常値, エラーへの対処が容易になる
②分析結果の信頼性が向上する
③既存データパイプラインの活用が容易になる

①と②はイメージしやすいと思います。③は動的計画法のような考え方で、データの変遷がしっかり管理できていると処理を共通化しやすくなります。共通化していると管理が楽になりますし、従量課金を削減することも可能です。


データリネージのような「データについてのデータ」はメタデータと呼ばれ、メタデータを活用したデータマネジメントが近年注目されています。

ここまでお読みいただきありがとうございました!


参考


この記事が気に入ったらサポートをしてみませんか?