はじめに~Excelでデータ分析をしよう

なぜ、いまどきExcel?

私はデータを分析する際のメインツールの一つに、マイクロソフトのExcelを使っています。いまどきExcel?と驚かれることもあるのですが、使い方次第でいろんなコトが簡単にできます。データ分析における究極のWYSIWYGだと思っています。(WYSIWYG=What You See Is What You Get、見たままのことができている)

一方で、もちろんExcelにも弱点があって、そういうときには素直にRを使ったり、クエリを書いたりしています。Excelの利点や長所とあわせて、限界や苦手なことを知っておくことは、やりたいこととその実現方法を瞬時に見分ける際に役立ちます。

Excelの長所

Excelは、データを「とりあえず観察する」ことに非常に向いています。「とりあえず」というのはすなわちアドホックということで、何が見えるか分からないけれども集計してみるとか、グラフを描いてみるとか、そういうフェーズのとき、データを眺めながらあーでもないこーでもないとアイデアを膨らませているフェーズの時に便利です。

特に、望む形のグラフを作ることにはおそらく他のツールより抜きんでています。データ分析ではデータの可視化が最も重要な作業になりますが、このとき、自分が「このようにしてデータを見たい」と思ったそのままのグラフを描くことができます。それはなぜかというと、Excelではグラフ描画の前に必ず「描画用のデータ」を作らなければならないからです。このように描画したいから、こういうデータを作る、こういうデータを作れば、項描画されるはずである、これらのプロセスが非常に単純であるために、望むようなグラフを描くことができます。しかも、描画するデータが数値として目の前に見えていることも利点の一つで、異常値の発見や数式のエラーなどにも気付きやすくなります。

BIツールとの違い

BIツール、例えばTableauなど、も最近はめちゃめちゃ便利になってきましたので、これらを使い慣れた人はその方が便利かもしれません。究極的には、データ分析では「自分の手足のようにツールを使う」ことが重要ですので、慣れたツールで思ったことができていればそれがその人にとって最も良いツールです。

それを踏まえた上で、Excelと他のBIツールとの違いはと言えば、上で述べたように「生データが見える」ことではないでしょうか。BIツールの主なものは、集計結果が主でデータが従であるようなインタフェースになっています。しかし、データ分析者にとっては集計はあくまでも集計であって、最も重要なものは生データです。経験上も、データ分析が行き詰まったり、失敗したりするケースの多くは生データをちゃんと見ていないことによります。ですので、生データが直接見えて、以上やエラーに気付きやすいというExcelの特徴は、データ分析者にとっては大きなメリットになります。

しかし実は、生データが見えてしまうことがExcelにとってのデメリットにもなります。特に、ビッグデータを対象とする際はExcelは非力です。Excelでいくら高速スクロールしても、生データを見られる量はせいぜい数万行~従数万行程度ですが、ビッグデータと呼ばれるものはそういうオーダーではない、数億行、数兆行ですので、とても生データを見られる量ではないし、もし見たとしてもそれは全体の中の僅か一部であって、それを持ってなにか判断できるものではありませんから、Excelだけでは限界があります。Excelで取り扱えるのはせいぜい数万行程度と思っておいた方がいいです。

このマガジンで書こうと思うこと

このマガジンでは、私が普段Excelを使ってやっていることを、特にテクニック面で書いていこうと思っています。データを分析する際のデータの取り扱い方や集計の仕方、可視化の便利な方法など。

系統立てて書こうとするとえらい大変な労力がかかりますし、そのせいで書き始められなくなってしまいますので、思いついたことから順不同に書いていきます。簡単なことから変な使い方まで。また、データ分析とExcelとの相性や、Excelでできない場合の代替ツールなどについても書くことがあるかもしれません。

いいなと思ったら応援しよう!