半構造化データが肝となる：DATA Saber認定までを振り返る④

2024年3月19日 00:16

DATA Saberで学んだことを振り返ります。
今日は、Ord0-2「データはどこにある？」を久しぶりに見ました。

データはどこにある？（DATA Saber Ordeal0-2）

データレイクやデータウェアハウス、データマートの違いなどが紹介されていますが、生データをそのまま大量に保管する「データレイク」と、倉庫にしまうように扱いやすい形式で整理された「データウェアハウス」の境界が近年曖昧になっているという話が面白かったです。

データレイクとデータウェアハウスの境界はなぜ曖昧になってきているのか

理由はいろいろありますが、データレイクで保管される非構造化データ（画像や音声など）や、半構造化データ（XMLやJSONなど）も、データウェアハウスと同じレベルで取り扱う必要性が出てきており、かつ、扱い可能な技術が出てきていることが大きいと思います。

そして、この半構造化データの取り扱いが今後の肝であると言われています。

半構造化データとは？

半構造化データとは、構造がある程度定義されているが、厳密なスキーマによって制御されないデータ形式です。
逆に、構造化データは厳密なスキーマにより制御がされています。Excelをイメージするとわかりやすいですが、属性（列）が固定で決まっており、そのすべての属性の値をデータ（行）ごとに規定される特徴があります。

半構造化データには、テキストファイル、ログファイル、ウェブスクレイピングの結果、XML、JSONなどが含まれます。

なぜ半構造化データの重要度が高まっているのか？

ではなぜ半構造化データの重要度が高まっているのでしょうか。それは構造化データの限界と技術の進歩が大きな要因となっています。
構造化データでは、属性を予め規定しておく必要があります。つまり、今後使われるあらゆる可能性を考慮してDB設計する必要があります。もちろん列の追加や変更は技術的に可能ですが、影響が大きいためかなりのコストがかかります。

それに対し、半構造化データは属性を自由に定義し、追加も容易です。また、全属性に値が入っている必要はなく、さまざまな種類のデータを取り扱うことができます。
これまでもその重要性は認識されていましたが、簡単に取り扱える技術が進歩したことで実用可能となり、今後のデータ活用の肝となってきています。

これまでデータベースといえばリレーショナルデータベースと向き合ってきましたが、これからは半構造化データの取り扱いが肝であることを踏まえ、具体的にどうやって取り扱うのか、それにはどのようなツールがあるのか？など引き続き深掘りしていきたいと思います。