業務で使用するデータの種類がわからなかった話

はじめに

この記事では、WEBマーケティング会社でデータ分析に従事している筆者が、業務や分析で普段取り扱っているデータを2つに分類すると何になるかを解説します。
私はこの業界に入った当初、クライアントから「売上のデータとGA(google anlytics)のデータの数値が合わない」とよく言われ、困ったことが多々ありました。
データの抽出ロジックは間違っていないのになぜ乖離が起こるのだろうと疑問に思っていました。
データは「業務データ」と「ログデータ」の2つに大きく分類でき、それぞれ特徴が違います。先ほどのエピソードで言うと売上データが業務データで、GAのデータがログデータになります。
結論、この2つのデータの性質の違いにより、データの乖離が起こっていました。
データ分析を始める前にまず、この2つのデータの性質の違いを理解することで、よりデータ分析の品質をあげることができると筆者は思うので、最後までご覧ください。

業務データ

業務データは「サービス・システムを運用する目的で構築されたデータベースに存在するデータ」のことです。これはつまり、分析用途に蓄積されたデータではないことを示しています。
業務データは以下の2つに分かれます。

業務データの種類
1.トランザクションデータ
2.マスターデータ

トランザクションデータとは購入データや口コミデータなど、サービス・システムを通じて、ユーザーの行動を記録したデータのことです。
マスターデータとは、都道府県マスタ、カテゴリマスタ、商品マスタなど、サービス・システムが定義するデータのことです。
分析する際、トランザクションデータとマスタデータを付き合わせることで、分析を行います。つまりマスタデータを参照してデータ分析の幅を広げるイメージですね。

業務データの特徴
・データの精度が高い
・更新型データなので、データ抽出時期によって変わる可能性あり
・扱うテーブルの数が多い

上記が業務データの特徴です。これらのことがわかっていたら、筆者もクライアントに数値が合わない理由を説明できたのですが、当時はこの知識がなかったため、何度もくりが間違っていないか確認するという無駄工程が発生してしまいました。

ログデータ

ログデータは分析を目的として収集されるデータです。業務データの場合は、サービス・システムを構築する際には必要のないデータは積極的に保存しませんが、ログデータは積極的に保存します。

・主にサイトの訪問回数、ページビュー数などを集計・分析するために使用
・出力時点の情報で分析可能だが、最新の状況を考慮した分析には向かない
・追記型データのため、抽出結果が変わることはない
・データの正確性については、業務データよりも劣る

上記がログデータの特徴です。基本的にHTMLにタグを埋め込んでデータ収集を行った理、サービー側でデータを取得し、出力すると言った方法でデータを集めています。また、やはり収集方法が正確ではないため、正確性については業務データよりも劣ってしまいます。

統合して分析する

今回紹介した業務データとログデータを掛け合わせることで、WEB上のデータとオフラインのデータを統合することができ、分析の幅が広がります。しかし、やはり両者のデータの特徴を知っていることが重要です。

最後に

いかがだったでしょうか。筆者がデータ分析をする際に「知っていたらもっとあの時楽だったのに〜」という知識を今回は紹介しました。
是非今回の内容を覚えて分析業務に勤しむ人が増えたら幸いです。



この記事が気に入ったらサポートをしてみませんか?