見出し画像

半構造化データが肝となる :DATA Saber認定までを振り返る④

DATA Saberで学んだことを振り返ります。
今日は、Ord0-2「データはどこにある?」を久しぶりに見ました。


データはどこにある?(DATA Saber Ordeal0-2)

データレイクやデータウェアハウス、データマートの違いなどが紹介されていますが、生データをそのまま大量に保管する「データレイク」と、倉庫にしまうように扱いやすい形式で整理された「データウェアハウス」の境界が近年曖昧になっているという話が面白かったです。

データレイクとデータウェアハウスの境界はなぜ曖昧になってきているのか

理由はいろいろありますが、データレイクで保管される非構造化データ(画像や音声など)や、半構造化データ(XMLやJSONなど)も、データウェアハウスと同じレベルで取り扱う必要性が出てきており、かつ、扱い可能な技術が出てきていることが大きいと思います。

そして、この半構造化データの取り扱いが今後の肝であると言われています。

半構造化データとは?

半構造化データとは、構造がある程度定義されているが、厳密なスキーマによって制御されないデータ形式です。
逆に、構造化データは厳密なスキーマにより制御がされています。Excelをイメージするとわかりやすいですが、属性(列)が固定で決まっており、そのすべての属性の値をデータ(行)ごとに規定される特徴があります。

半構造化データには、テキストファイル、ログファイル、ウェブスクレイピングの結果、XML、JSONなどが含まれます。

XMLの実装例
JSONの実装例

なぜ半構造化データの重要度が高まっているのか?

ではなぜ半構造化データの重要度が高まっているのでしょうか。それは構造化データの限界と技術の進歩が大きな要因となっています。
構造化データでは、属性を予め規定しておく必要があります。つまり、今後使われるあらゆる可能性を考慮してDB設計する必要があります。もちろん列の追加や変更は技術的に可能ですが、影響が大きいためかなりのコストがかかります。

それに対し、半構造化データは属性を自由に定義し、追加も容易です。また、全属性に値が入っている必要はなく、さまざまな種類のデータを取り扱うことができます。
これまでもその重要性は認識されていましたが、簡単に取り扱える技術が進歩したことで実用可能となり、今後のデータ活用の肝となってきています。


これまでデータベースといえばリレーショナルデータベースと向き合ってきましたが、これからは半構造化データの取り扱いが肝であることを踏まえ、具体的にどうやって取り扱うのか、それにはどのようなツールがあるのか?など引き続き深掘りしていきたいと思います。

この記事が気に入ったらサポートをしてみませんか?