見出し画像

データ分析にツールのコストは不要

こんにちは、よさそう®です。

かれこれ20年ちょっとくらい業務改善やマーケティングの分野でデータ分析に携わってきました。だいぶ市民権を得ているデータ分析ですが、ちょっと前まではコストに見合うのか?という疑問を投げかけられたものです。なので最初の分析環境をコストをかけずに用意できる人に気がつけばなっていました。

ということで、普段私が分析に使っている環境をご紹介したいと思います。基本、無料もしくは限りなく無料に近いです。

R

統計解析のソフトウェアです。無料で使えるのと、たくさんのライブラリが用意されています。

なかでもtidyverseは素晴らしいライブラリです。語り始めると止まらないので秀逸だと感じる3点をご紹介します。

1.普通のパソコンで数千万件のデータを普通に読み込める
2.SQLライクにデータ加工ができる
3.データ型を勝手に判定してくれる

最近のパソコンで8GB程度のメモリを積んでいれば、2,000万件程度のレコードの処理はお茶の子さいさいです。しかも動きも軽妙。さらに3点目のデータ型を勝手に判定するのも、分析の初期段階ではありがたいです。もらったデータが、想定外なんてことは日常茶飯事です。そんなときに勝手にデータ型を判定してくれるので、読み込めないと頭を抱える無駄な時間を省けます。

私の場合、データ分析の初期段階で、データの構造や全体像を把握する目的でtidyverseを使うことが多いです。簡単にさまざまな角度からデータを眺められるので、仮説出しにとても便利です。

MySQL

こちらはデータベースシステムです。かつては読み出しの速さが売りでしたが、いまではそこまででもないかもしれません。あくまでも個人的にPostgresSQLよりも経験が長いので使っています。

MySQLを始めとしたRDBMS(リレーショナルデータベースシステム)は、数GBクラスのデータもインデックスの設定により高速にデータ集計できます。

なので1億行くらいまでのデータを定期的に扱うケースではMySQLを使っています。Rと違ってもう少しマシンスペックは必要となります。でも16GB程度のメモリがあれば十分でしょう。パソコンでも動きます。

Google Big query

パソコンレベルでどうにもならないデータ量、たとえば数億件のログデータやトランザクションデータを扱うとき、Big queryにお世話になっています。

Googleのクラウドサービスで有料です。有料といいながら、使い方次第ではほとんど掛からないに近いコストで使えます。

このサービスの素晴らしい点は、RDBMSで求められるインデックスの設定や正規化などのお作法などなしに、大規模データを高速に取り扱える点です。もうこれだけで優勝です。

テーブルの構築もUIが用意されているし、Google Cloud Strageのデータを読み込めば勝手にフィールド定義もしてくれます。(世の中凄まじく便利になったものです)

MySQLなどRDBMSの知識がないかたにとっては、一足飛びにBig queryからはじめてもよいと思います。

Google Spread Sheet

慣れるとExcelに戻れないですね。Excelと同等の機能をもっていて、個人では無料でも使えます。さらに協働するときの便利さが凄まじいです。変更履歴をすべて記録してくれているので、誤ってデータを消しても戻れます。

さらにGoogle Data Studioに読み込めるため、ダッシュボードもお手軽に作れます。なので最近はGoogle Spread Sheet + Google Data Studioで、データプレゼンテーションする機会が多いです。

Kh Coder

無料のテキストマイニングツールとして、これ以上のソフトウエアは存在しないです。有料のソフトやクラウドサービスと比較しても遜色ないというか、これが無料でいいのか?というくらい秀逸なソフトウェアです。

操作が手軽なだけでなく、データのおかしなところを自動修復してくれもします。さらにクラスタリングや共起ネットワーク図などの可視化も簡便に行えます。アンケートの自由回答の傾向を簡単に定量化できるので、いつも助けられています。

さらに高度な機能として、テキストデータにカテゴリ値を付けてあげて、たとえば男女での傾向の差を見たり、言葉をグルーピングして視座をあげて分析したりといったこともできます。

テキストマイニングソフトは有料のものだと数百万円するものもあります。これからテキストマイニングをしてみようという組織では、そんな高いものに手を出すよりも、Kh Coderに習熟するほうがいいと思います。

むすび

ということで、今回は私が普段分析に使っているソフトウェアやクラウドサービスをご紹介しました。この他にもプログラミング言語ではPythonを使っていたり、Web解析ではGoogle Analyticsを使っています。これらも含めてパソコンさえあれば、無料で使えます。

入力データとパソコンさえあればデータ分析ははじめられます。そのうえ、データ分析からはそれまで見えなかった事実を発見し、戦略や戦術を生み出せます。長年携わってきて、これほどお得な活動はないと断言できます。

もしこれからデータ分析をはじめよう!というかたがいたら、ぜひこれら無料で使えるソフトやツールを活用してみてください。

最後までお読みいただきありがとうございました。

この記事が少しでもあなたにとってお役立ちになれば幸いです。

この記事が気に入ったらサポートをしてみませんか?