「データ分析」のレビューを考える 〜序:プロセスモデル編〜
「データ分析」のレビューにおいて、論点やチェックポイントは何であるか考え直す機会がありました。かなり抽象度の高い話になってしまうのですが、思索の結果をまとめていきます。
データ分析を「モデル化」する
データ分析において「何がレビューの対象になるのか?」と考えると、成果物そのもの──集計に使用したコードや分析結果をまとめた報告書──だけではなく、思考プロセスや主張の論理構成なども対象になっている気がします。
そういうわけで、まずは普段”なんとなく”でこなしているデータ分析の業務を、分析実務者以外にも伝わるように言語化・モデル化していきます。
※これだけで咀嚼するのが大変だと思うので、本題のレビュー云々の話は別の記事にすることにしました。副題に”序”を含むのはそういう理由です。
モデル化の対象範囲
今回モデル化を試みるのは、成果物が「報告書」や「論文」の形をとるデータ分析です。実例が弊社のもので恐縮ですが、たとえばこの記事のように「アンケート結果を分析して第三者にわかりやすく伝える」場合が該当します。
また、広く言えばデータ分析業務に含まれるかもしれませんが、何かのシステムに組み込むAIや機械学習モデルを構築する業務は、今回のモデル化の対象外です。これらは報告書や論文にまとめる場合と比較すると、レビューのポイントが大きく異なるためです。
で、モデル化の対象範囲(スコープ)を絞って思索すること数日。
ぼんやりとですが、データ分析の業務をモデル化することができました。
データ分析の構成要素4つ
成果物が違えば業務プロセスも多少異なりますが、今回の対象範囲に限れば
「データ分析」の構成要素は、主として以下の4つになります。
データ
表現
解釈
主張
厳密にいえば、論文や報告書に記載される事項はもう少し多いのですが、枝葉をできるだけ削ぎ落として「データ分析」の核となる部分だけに絞ると、この4つです。
データ
いわずもがな。分析の対象となるデータのことを指します。自社のデータベースからSQLを書いて抽出したり、Webサイトをクロールするプログラムを動かしてデータを集めたり、アンケートを実施して回答してもらったり──。何かしらの手段で集められた、分析の対象となる”情報”の塊がデータです。
分析結果を報告する際には、いつ・どのようにして・どのくらい・データを集めたか?を記載するのが作法となっています。先に挙げた弊社の記事でも、調査概要としてデータの”素性”を記載しています。
表現
多くの場合、分析者はデータを何かしらの形式に加工して分析を行います。たいていの場合、未加工のデータはそのままだと特徴を把握しづらいため、表やグラフにして眺めたり、平均や分散、標準偏差といった要約統計量を集計して、データの特徴を大まかに把握します。
このように、分析の途中過程では『データの特徴を人間が認知しやすい形式に変換したもの』を取り扱いますが、今回はこれを”表現”と定義します。
解釈
「『表現』に示されたデータの特徴を要約あるいは抽象化したもの」が解釈です。集計された数値そのものを抜き出して記載するのは「表現」ですが、例えば月ごとの売上を比較して「増加傾向にある」と言葉にするのは、表現ではなく”解釈”にあたります。また、複数の表現から共通することを読み解いて言語化するのも解釈です。
具体→抽象と情報を削ぎ落とすプロセス、といえるかもしれません。”表現”には数値や元データに含まれる情報が含まれますが、”解釈”では具体的な情報が削ぎ落とされることが多いです。
主張
主張は「解釈から類推して展開される”意見”」です。解釈は事実を抽象化したものであるため、まだ事実の範疇に含まれますが、主張は事実とは限りません。データ分析における"主張"とは「データを読み解いた結果、事実である可能性が高いこと」で、必ずしも事実であるとは保証されません。ただし、”解釈”に基づき論理的に構成されており、確かであると信じられるものです。
先の記事では「解説」の3つの段落のうち、ひとつめが「解釈」にあたり、二つ目と三つ目が「主張」にあたります。
データ分析プロセスのモデル
ここまで述べてきた4つの構成要素を踏まえて説明すると、データ分析とは「収集した”データ”を人間が認知しやすい”表現”に加工し、それを”解釈”することで、確からしいと言える”主張”を展開すること」だといえます。
── といっても、抽象的な内容のため分析実務に関わったことのない方にはピンとこないと思いますので、次回は実例を挙げながら本題の「データ分析のレビュー」について考えていきます。次回へ続く。
この記事が気に入ったらサポートをしてみませんか?