見出し画像

データサイエンティストのためのデータカタログ

今回の記事は出口がお届けします。

まずは、私の自己紹介から。
普段はWeb系のIT会社に勤務し、データ分析の部署でtoC向けサービスのグロース改善や、データ基盤チームと連携してのBIツールの保守などを行っています。

DATAFLUCTではプラットフォームチームにて、データの収集及びそれを溜めるデータレイクの開発に携わっております。

今回は、近年徐々に注目を浴びつつある、データカタログという概念についてお話できればと思います。

データカタログとは

データカタログとは、一言で表すならば「データの管理台帳」です。企業経営やその意思決定において、データ資源の利活用は、ヒト・モノ・カネといった伝統的な経営資源の利活用と並んで重要視されています。※1伝統的な経営資源(ヒト・モノ・カネ)の実態把握は

ヒト:社員名簿、キャリアパス
モノ:在庫台帳、物流トラッキング
カネ:PL/BS、予実管理

といったように様々な形でなされています。人員リソースの最適化を行うためには、人事情報を集約・管理して最もパフォーマンスの出る組織の形の検討をするでしょうし、不良在庫を少しでも減らすために在庫管理を徹底的に行う企業も多いでしょう。

しかしながら、ことデータとなると、どこにどのようなデータが格納されているか、自社のデータ資源の実態をきちんと把握出来ている企業の数はグッと少なくなります。

社内にあるデータ資産がカタログ化され、誰でも必要に応じて中身の把握やアクセスが出来るように整備された仕組み、それがデータカタログです。

※1
経営のためのデータマネジメント入門 | ビジネス専門書Online.

データカタログが注目を浴びる背景〜データサイエンスとデータレイクの普及〜

近年、特にデータ資源の実態把握の必要性を強く後押しする要素として挙げられるのが、「データサイエンス及びデータレイクの普及」です。

データサイエンスによる高度なデータ分析をビジネスに活用する事例を考えたとき、特に機械学習のような分野では、質の高いデータを大量に用意する事で、精度の高いアウトプットが実現できます。

そこで、今後の利活用が少しでも見込めそうなデータをとりあえず入れておく保管場所として「データレイク」という概念が発達してきました。特にAmazon、Google、IBM、MicrosoftといったIT企業を筆頭にクラウド技術の発達がめざましく、彼らが提供するサービスに乗っかる事で、データさえあれば誰でも気軽にデータレイクを構築できる世界が近づいています。

しかしながら、データレイクの構築が安易に出来てしまうが故に、落とし穴もあります。データレイクには多量の生データを”とりあえず”入れておくことが出来るため、

1.そこにあるデータが利用可能な状況かわからない
2.欲しいデータの場所がわからない

といったことが容易に起きてしまいます。

1.はデータの品質、2.はデータの検索性の問題といえます。
これら2点をもう少し詳しくみてみましょう。

1.データの品質

データの更新頻度や取得日時が不明瞭だと、古いデータをソースとした分析を行ってしまい、その結果誤った意思決定に繋がる可能性があります。この状況を回避するためには、データの取得日時が見える化され、データが適切な頻度で更新されている事が誰の目にとっても明らかになっている必要があるでしょう。

また、データの重複や表記ゆれなどが混在しており、データの扱いが煩雑になってしまう可能性もあります。これを防ぐためには、名寄せや重複削除といった正規化をかけ、データを扱いやすい状態に維持しておく必要があります。

2.データの検索性

データレイクには非常に多くの生データが格納されます。中にはIoTのログデータなど、人間が見ても意味をなさない記号の羅列が並んでいる場合もあるでしょう。このままでは、利用者は自分が欲しいデータに一向にたどり着けず、結果として分析の入り口にも辿り着けません。

これを解決するには、各種データに対して「それは何を意味するのか」といった情報が付与され、それを気軽に利用者が検索できる状態にしておく必要があります。

このような状況では、例え高度なスキルを持つデータサイエンティストを雇ったとしても、使うデータの確認ばかりに時間が取られ、最悪データ品質が担保されないままデータ分析プロジェクトが進行し、結果が出ずに解散...という事もありえるでしょう。せっかく多量のデータを溜めたにも関わらず、データの量が増えるほどデータレイクの中身がブラックボックス化し、威力を発揮できなくなってしまっては、本末転倒です。

データサイエンティストが行う分析業務の大半がデータの整理に充てられているという調査結果※2もあるように、ここのコストをいかに抑えるかが、データ分析プロジェクトを成功に導く上で非常に重要な課題となります。

上記2点を解決するためには、データレイクをそのままの形で放置せず、
①データの品質・状況を誰でも容易に把握できる
②利用者が欲しいデータに簡易にアクセスできる
という要件で整理整頓し、カタログ化しておく必要がある訳です。

※2
ビッグデータの活用と分析に至るプロセス - 総務省.

スクリーンショット 2020-06-14 23.00.50

データレイクとメタデータ

データカタログ作成にあたって重要な手がかりとなるのが、メタデータの管理です。

データマネジメントの知識体系であるDMBOK※3によると、データレイクを図書館、中にあるデータを本とした場合、メタデータはその図書目録にあたります。広大な図書館の中で目当ての本を探すのに図書目録が必要であるように、広大なデータレイクの中で目当てのデータを見つけるためには、充実したメタデータが必要です。

メタデータは下記の3つに分類することが出来ます。

ビジネス:ビジネス上の詳細。データの出所や他データとの関係性、ビジネス用語との紐付けなど

テクニカル:技術上の詳細。テーブル名やカラム名、アクセス権限など

オペレーション:運用上の詳細。データ更新頻度、最終更新時間、SLA、エラーログなど

これらメタデータを取得するためのソースは非常に多岐に渡ります。テクニカルなメタデータはある程度システマチックにデータベースから情報を取ってこれますが、ビジネスのメタデータは社内独自のデータ体系を元に手動入力する必要があるかもしれません。

データカタログの作成とは、これらメタデータ管理の要件及びシステムを作成する事と言い換えてもよいでしょう。

※3
データマネジメント知識体系ガイド 第二版 | DAMA  - アマゾン 

世の中のデータカタログの実例

世間一般に広く公開されているデータカタログの実例の一つとして、日本政府が推進するオープンな公共データを集めたカタログサイトであるDATA.GO.JPがあります。

このサイトでは、あらゆる公共データがカタログ化されて提供されています。利用者にとってデータの定義が簡単に把握できるようになっており、必要であれば様々な形式でダウンロードできるようになっています。

スクリーンショット 2020-06-14 23.07.35

クラウドサービスにおけるデータカタログ

上記のようなデータカタログを企業内で作成するために、非常に強力な助けとなるのが、AWS、GCP、MicrosoftAsureといったクラウドサービスです。各サービスとも、データカタログ機能の提供が進んでいます。下記はその一覧です。

AWS:AWS Glue
GCP:Data Catalog
Micosoft Azure:Data Catalog

これらの機能は共通して、各クラウドプラットフォーム内に格納しているデータセットにアクセスし、自動でメタデータを抽出して、そのカタログを作成してくれます。

このカタログを元にして、ユーザはデータレイク上のどこにどんなデータが存在するか、簡単に把握することができます。

DATAFLUCTにおけるデータカタログ

現在、DATAFLUCTではAWSを中心に据えつつ、マルチクラウド構成にてデータレイク構築を行っております。

データサイエンスに有用なあらゆるデータの収集を開始しており、それらはAmazon S3上に保存されます。S3上のデータに関するメタデータを取得するために実装されたクローラ(AWS Glue Crawler)によって、常に最新のテーブル情報や、スキーマ情報、更新日時などがデータカタログとして保持されるようになっています。

存在するテーブルの一覧はAWS Athenaを通して閲覧することができ、そこから詳細を辿る事ができます。

現在、取得が自動化されているのは、テクニカルなメタデータのみですが、今後はビジネス上のデータ定義など、ビジネスのメタデータも拡充することによって、より一層使いやすいデータカタログを構築していければと考えております。

スクリーンショット 2020-06-14 23.08.36

興味がある方は是非DATAFLUCTをフォローしてください!

更新通知はこちらから
SNSのフォローお待ちしています!
https://twitter.com/datafluct

この記事が参加している募集

オープン社内報