半構造化データが肝となる :DATA Saber認定までを振り返る④
DATA Saberで学んだことを振り返ります。
今日は、Ord0-2「データはどこにある?」を久しぶりに見ました。
データはどこにある?(DATA Saber Ordeal0-2)
データレイクやデータウェアハウス、データマートの違いなどが紹介されていますが、生データをそのまま大量に保管する「データレイク」と、倉庫にしまうように扱いやすい形式で整理された「データウェアハウス」の境界が近年曖昧になっているという話が面白かったです。
データレイクとデータウェアハウスの境界はなぜ曖昧になってきているのか
理由はいろいろありますが、データレイクで保管される非構造化データ(画像や音声など)や、半構造化データ(XMLやJSONなど)も、データウェアハウスと同じレベルで取り扱う必要性が出てきており、かつ、扱い可能な技術が出てきていることが大きいと思います。
そして、この半構造化データの取り扱いが今後の肝であると言われています。
半構造化データとは?
半構造化データとは、構造がある程度定義されているが、厳密なスキーマによって制御されないデータ形式です。
逆に、構造化データは厳密なスキーマにより制御がされています。Excelをイメージするとわかりやすいですが、属性(列)が固定で決まっており、そのすべての属性の値をデータ(行)ごとに規定される特徴があります。
半構造化データには、テキストファイル、ログファイル、ウェブスクレイピングの結果、XML、JSONなどが含まれます。
なぜ半構造化データの重要度が高まっているのか?
ではなぜ半構造化データの重要度が高まっているのでしょうか。それは構造化データの限界と技術の進歩が大きな要因となっています。
構造化データでは、属性を予め規定しておく必要があります。つまり、今後使われるあらゆる可能性を考慮してDB設計する必要があります。もちろん列の追加や変更は技術的に可能ですが、影響が大きいためかなりのコストがかかります。
それに対し、半構造化データは属性を自由に定義し、追加も容易です。また、全属性に値が入っている必要はなく、さまざまな種類のデータを取り扱うことができます。
これまでもその重要性は認識されていましたが、簡単に取り扱える技術が進歩したことで実用可能となり、今後のデータ活用の肝となってきています。
これまでデータベースといえばリレーショナルデータベースと向き合ってきましたが、これからは半構造化データの取り扱いが肝であることを踏まえ、具体的にどうやって取り扱うのか、それにはどのようなツールがあるのか?など引き続き深掘りしていきたいと思います。