補足

2019年5月20日 00:11

いろいろ補足です。

Excelでは○○分析はしない

Excelでデータを観察する方法をいろいろ書いてきましたが、○○分析は無しです。狭い意味でのデータ分析はExcelではしません。荷が重すぎます。Excelはあくまでも「生のデータを観察する」ことに重点を置いて、ひたすら切って、集計して、可視化するところ、これを素早く回して気づきを連鎖させるところに重点を置いてください。多くの価値ある情報は、集計可視化で出てきます。

○○分析が必要になるのは、次のようなときです。

(1) 軸が多すぎて可視化ができない。切り口が三次元以上になると、グラフで書き表しにくくなるので、どの軸がどのくらい効いているのかが見えにくくなります。そういうときは統計の出番です。

(2) 切ってみたけれど非常に似ていて、区別がつかない。その「似ている」は、同じだから似ているのか、それとも違うのかをはっきりさせるのも統計の出番です。○○分析をすることになります。が、果たしてそれは本当に必要でしょうか。見た目で判断がつかないくらい似ているのならば、それが統計的に異なることがわかったとして、どんな利益に繋がるでしょうか。その利益と費用とを天秤にかけて、詳細な分析をするかどうかを判断します。

(3) 自動化したい。システムに組み込みたい。人が目で見て判断する部分をコンピューターにやらせるには、目で見て判断していることをプロセスに起こす必要があります。多くの場合、それと似たような判断をするための統計や機械学習の手法があるので、それらを援用、カスタマイズして使います。

最近は(3)のケースが非常に多くなってきました。データ分析がデータ分析単体で終わることはほとんどなく、分析結果を何らかシステム化して、業務効率化を図ったり、利益増、コスト減に使うことが多いです。

なぜExcelで○○分析をしないか

○○分析が必要な場合は、分析用のライブラリが揃っているRやpythonを使います。ちゃんとデータを観察して、仮説が見えていれば、あとはその仮説を検証するのにふさわしい○○分析があるので、それにかけてみるだけです。

ちなみに、Excelで○○分析をすることも不可能ではありません。学習のため、つまり、○○分析を学ぶ段階で、計算の過程がガラス張りになっているExcelを使ってやってみることは、勉強になります。しかし、計算式を一つずつ組み込む必要があるので非常に手間がかかる上、ミスがよく混入します。Rやpythonなどのライブラリはたくさんの人が既に使っていますので、計算ミス（いわゆるバグ）が混入している可能性は低いです。それでも、特殊な使い方や変なパラメータを入れたような場合にはまれにバグがあったりもしますが、普通の使い方ではまずありません。バグがないということは、大きな価値です。Excelで欲張って○○分析までしようとすると本当に大変です。餅は餅屋、Excelは集計可視化までと割り切って、その後の○○分析は必要になったらRやpythonで実施した方がよいです。

補足ですが、Excelの「分析ツール」にはいくつか分析メニューがありますが、これらは使った後に値が貼り付けられてしまうので（つまり、元データとの関係性が切れてしまうので）、おすすめしません。

とりあえず○○分析

Excelからは離れますが、ついでに。

データが見えていない、仮説が見えていないうちから○○分析を実施するのは邪道です。

とはいえ、世の中には切りにくいデータ、見えにくいデータもたくさんあって、理想的には「観察→仮説→分析」のところをすっ飛ばして、○○分析や機械学習をすることも増えてきました。

例えば、予測モデルを作りたいのならば、とりあえず機械学習にかけて、どのくらい予測できるのか、また、各変数がどのくらい効いているのかを観察することがままあります。「あたりをつける」という気持ちです。そもそものデータがどのくらいの情報を持っていて、どのくらい当てられるのか試してみる感じです。もちろん、そこからもう一度「観察→仮説」に戻ります。

他にも、とりあえず重回帰とか、とりあえず因子分析とか、とりあえず共分散構造解析とか、やらなくはないです。但し、これらは必ず観察の一環と割り切って、そのあとの仮説の種を見つけるために実施していると言うことを忘れないようにしてください。例えばよくあるのが、機械学習の際、説明変数に答えが混ざってしまっているケースがありますが、そのようなときには非常に高い確率で当たるモデルになります。これを、「よく当たります！」といってそのまま使ってしまったら、実際には大外しします。どういうデータを使って、なにをしようとしているから、こうなるはずだ、こうなるべきだ、という「仮説」を常にアタマに描いていることが肝心です。

巨大なデータはサンプリング

巨大なデータはDBから引っ張ってくる際にサンプリングします。どのようにサンプリングするかは課題に寄りますが、Excelは観察ツールだと思えば、大きすぎるデータは必要ないことがわかります。ランダムサンプリング、もしくは部分抽出して持ってくるのが良いです。

ちなみに、データ分析における「ビッグデータ」の存在意義は、集計に大量のデータを使うことができるところではなくて、「大量のローカルを同時に処理できること」です。どれだけ細かく分類していってもデータがたくさんあるのがビッグデータの意味ですから、例えばビッグデータを使って全体の集計をすることには全く意味がありません。サンプリングデータで十分です。会計システムなどでは完全なデータを集計できることに大きな意味がありますが、データ分析ではポイントはそこではなくて、大量のローカルに対して半自動的、同時に分析ができることです。（半）自動的に分析をするためには、分析をプロセスに仕立て上げる必要があって、そのためにいくつかのローカルを対象として観察→仮説→分析を繰り返します。つまり、手元でよく観察するのは部分ですし、それをいくつか取ってきてプロセスの適用可能性を確認したりはしますが、全データを同時に取り扱うのは、分析にほぼ決着がついた最終段階です。

ほかにも

ほかにも補足事項が見つかったら追記していきます。

この記事が気に入ったらサポートをしてみませんか？