見出し画像

CRISP-DMをうまく活用する

 こんにちは、CTO室AI推進部アナリストグループの足立です。私たちアナリストグループは、主に「プロダクトの課題発見のためのデータ分析」に取り組んでいます。ユーザの皆さんがサービスをより利用しやすくなるよう、データ分析によって得られた知見は様々な場面で活用しています。
 本記事では、データ分析のフレームワークとして知られるCRISP-DMの概要や、活用する上で注意することについて紹介します。

CRISP-DMとは

 CRISP-DMは、Cross-industry standard process for data miningの頭文字の略であり、データ分析の道筋を表現したものです[1]。CRISP-DMは、データを中心に、ビジネス理解から始まり共有・展開に至るまで、6つの工程があります。

画像1

ビジネス理解
 この工程ではまず、ビジネス背景を理解し課題を選定します。課題は、現在の状態と将来の状態の差から考えてみましょう。
 次に、課題を解決するために存在する問題のうち、データを分析して解けるものに焦点を当て、分析の目標を設定します。このとき、分析の目標を達成したとみなす基準も決めておきます。例えば、モデルの精度や結果の根拠の解釈しやすさ、推論処理の速度などが挙げられます。

データ理解
 利用可能な状態にあるデータについて、データを取得・蓄積してきた背景を理解した上で、集計・可視化して傾向を理解します。
 集計は例えば、平均や標準偏差などの基礎統計量を計算します。可視化は例えば、ヒストグラムや散布図のようなグラフを描画します。これらの作業は、BI(Buisiness Intelligence)における作業と似ています。
 その結果、もしデータが目標を達成できそうにないものであれば、ビジネス理解に戻って問題を再度設定しましょう。

データ準備
 予測など何らかのモデルを作成するために、データを機械が理解できる形(特徴量)へ変換します。特徴量は、データが持つ何らかの特徴を数値化したものです。解くべき問題によっては、特徴量と併せて正解(目的変数)も作成する必要があります。
 作成する特徴量と目的変数は、解くべき問題ごとに異なります。また、特徴量と目的変数の質は後述のモデルの精度を左右するため、時間をかけて取り組むとよいでしょう。

モデル作成
 前処理した結果をもとに、統計解析や機械学習の手法を利用して、モデルを作成します。モデルは、特徴量の規則性を数式化したものです。この規則性は、機械が訓練と検証を繰り返しながら作成します(学習)。
 作成したモデルは、精度や誤差などの指標によって性能を測ります。目標達成基準にモデルの精度を設定していれば、それを満たしているかどうかを判断します。基準を満たしていなければ、データ準備に戻り、特徴量(や目的変数)の形を見直しましょう。

評価
 モデルが出力する結果から、分析の目標を達成できるか、さらに課題を解決できるかを評価します。もし、目標達成基準としてモデルの精度と結果の根拠の解釈しやすさの両方を設定しているとき、どちらを重視するかあるいは両立させるかを考えます。
 モデルの精度と結果の根拠の解釈しやすさは、トレードオフの関係にあります。もし、モデルの出力結果を材料に何らかの施策を立てたいとき、いくら精度が高くても根拠が不明瞭であれば実用できないかもしれません。
 重視する対象について評価し、具体的な行動に移せないときは、ビジネス理解に戻って分析問題の設定(ひいては課題の設定)から見直しましょう。

共有・展開
 分析の目標を達成できたら、実運用に向けて、得られたモデルを業務フローやシステムへ組み込みます。モデルは導入して終わりではなく、価値を保つために更新(再学習)し続けます。運用後に得られた情報は、適切な時期にモデルに反映すると良いでしょう。

活用する上で注意すること

 この記事[2]では、CRISP-DMを活用する上で注意することを4つ述べています。これらは、データ分析の成否を左右するものです。4つの注意点について以下に、理解した内容を自分の言葉で要約します。

画像2

①問題解決のみに捉われない
 目標を理解しその達成にかかる工数を最小限に抑えた上で、自由度の高い分析をすれば興味深い結果を得られるかもしれません。分析の結果は問題解決に役立たないかもしれませんが、そこから新たな着想を得られる可能性があります。しかし、やりたい作業ばかりに注力しすぎると、実際のビジネスに適用できない可能性もあることに注意しましょう。

②分析の指標のみで評価しない
 分析し得られたモデルの精度が高いことは、必ずしも目標の達成に直結するとは限りません。結果は、モデルの精度と目標の達成どちらの観点からも評価しましょう。これが不足すると、工程を一からやり直すことにつながりかねません。

③システム導入まで見据える
 モデルをシステムに導入したいとき、始めからそれも見据えて作業の計画を立てましょう。分析自体は評価の工程で終わったとしても、モデルは共有・展開の工程へ渡されます。モデルを運用する環境の構築や推論処理なども併せて検討しておくとよいでしょう。

④CRISP-DMは繰り返すもの
 ビジネス理解から共有・展開まで一周して終わり、ということは少ないでしょう。もし前提条件が変わればビジネス理解に戻って、データの質が変わればデータ理解に戻ってやり直すことは起こりえます。また、データ量が増えればモデル作成に戻って、モデルを新しいものに更新します。この反復がなければ結果の価値は下がり、機会損失につながるかもしれません。

まとめ

 CRISP-DMの全体像、各工程で考えるべき内容や実行する作業の要点、注意すべきことを紹介しました。これからデータ分析を始めようとするとき、この記事の内容が参考になれば幸いです。また、システム運用まで想定するときは別のフレームワークが必要になってきます。
 本記事は、マネーフォワードエンジニアブログで公開されている記事[3][4]を編集し掲載しました。

参考文献

[1]Cross-industry standard process for data mining,https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
[2]Four Problems in Using CRISP-DM and How To Fix Them,https://www.kdnuggets.com/2017/01/four-problems-crisp-dm-fix.html
[3]CRISP-DMに沿ってデータ分析する,https://moneyforward.com/engineers_blog/2022/03/15/crisp-dm/
[4]CRISP-DMを活用する上で注意すること,https://moneyforward.com/engineers_blog/2022/06/24/how-to-use-crisp-dm/