探索的データ分析って必要ですか?/データ分析の基本をまとめてみる
「探索的データ分析」をいきなり初めても何もでてきません
「探索的データ分析(解析)」はよく聞く言葉ですが、では何かあるかなと探索してみよう!といきなりデータを見たりツールをいじくっても時間だけ取られてしまうので気を付けないといけない、ということはあまり知られていないようです。
ツールやプログラミングでデータをいじる手段は知っているけれどもどう使うかを知らない、というのはデータ分析を始めたばかりのころの人にありがちですが、そういった人たちがよく陥るのがこの「探索的データ分析と称して何かやった気になる症候群」ではないでしょうか。
そこで今回は、探索データ分析で見かけるよくないパターン2つと、探索的データ分析はどんな時に使うのがよさそうかがテーマです。
目的が無い探索的データ分析
BIツールでもGoogleAnalyticsでもPythonでも何でもいいのですが、「何かわかるかな」とデータをいじくるのはたしかに楽しいです。
軸を変えてみたり、いつもは見ない指標を見てみたりしているうちに、いままでとはちょっと違う視点がうまれてきます。
「ある商品の売り上げの内訳を掘り下げてみよう!」なんて始めて、性別、年代別、地域別、月別でみるといろいろな違いが見つかります。
次にやることといえば、これらの指標のクロス集計で、そうするとまた「こことここが違うぞ」とか「このセグメントはすごく良さそうだぞ」とまた新たな「発見」があるでしょう。
となると次は「なんでこうなるのか」に興味がわき、そのうち周囲を巻き込んでああだこうだと議論が始まります。
でもそれで次の何かにつながることはあまりないのではないでしょうか。あるいは、本来の目的とは大分かけ離れた目先の興味に時間を取られてしまっていませんか。
実によくある話なのですが、こんなことになる原因は「目的が無い」からなんですね。より正確に言うと「具体的な目的が無い、何を知りたいのかが明確ではない」状態でとりあえずデータを見ているとこうなりがちです。
なので、目的が定まっていない時点でデータを見始めるのはお勧めしません。
基準がない探索的データ分析
次に目的があっても基準がないと「どのあたりならよさそうか」のあたりもつけられません。
クラスター分析をするのに何の基準もなければ「とにかくたくさん分けられるだけ分けよう」と考える人が出てきます。
20数個に分けられたクラスターを特徴づけ、1つ1つに個別の施策を考えるなどということに膨大な時間を費やしても得られるものは本当に少ないです。
分けるだけならともかくそのあとの動きも考えるなら多くても6-7つでしょう。セグメンテーションに取り掛かったばかりだったらそれでも多いかもしれません。
プログラミングすれば結果は出るのですが、基準もなしにとりあえずとりかかってしまうと次につながらずに「分析してみただけ」になってしまいがちです。
探索的データ分析って必要ですか?
こう考えてみると、「探索的データ分析」の存在を疑ってみる必要もありそうです。
私自身は「探索的データ分析」と呼ばれることはほとんどしなくなりました。とにかくデータをいじくるよりも「どんなことを知ると問題が解決しそうか」を見極めたり、他のやるべきことに時間を割いたほうがよいのでは、と考えているからです。
そう考えるようになってからはとりあえず数字を見るのも本当に最低限で、それより細かくは必要がない限り見ないようにしています。そしてそれで何か問題がおきるかというと、特に起きないのですね。
なぜかといえばデータ分析は「次にどうするかを決めるため」にやることなので、次にやることがきまっていない状態でデータを見ても動けないわけです。動けないのであれば別に見なくても困らない。
そう考えると、「探索的データ分析」を行うのがよさそうなのは
・問題意識があるけど具体的にどうしたらいいか思い浮かばないときにヒントを探す(ただし無制限ではなく)
・問題やデータに取り掛かったばかりで感覚(いわゆる土地勘)が無い時に様子を掴むためにやる
ぐらいしかないのかなと思うのですが、もっと有用な使い方をご存じであれば是非教えてください。
この記事が気に入ったらサポートをしてみませんか?