【開発/社内勉強会】AWS上でのデータレイク構築ハンズオン(1/3 前説編)
社内でAWSを使ったデータレイク構築の勉強会がありました。
社内向けにまとめたものなので、少し説明不足な部分もありますが、こんなことやってるんだな〜ぐらいに思っていただけると嬉しいです。
データレイク(Data Lake)とは規模に関わらず大量のデータをそのままの状態で格納できる一元化されたリポジトリのこと。いちサービスというわけではなく、概念的な意味合いが強いです。
Lakeとは湖という意味で、DataLakeはデータの湖という意味。
逆に整理されていないデータリポジトリ