図_小

データ解析初心者のためのQ&A(あんちべ著『データ解析の実務プロセス入門』より)

顧客の心をつかむ新製品を企画したり、業績を改善するための施策を考えたりといった、ビジネスのあらゆる場面でカギになるのが「データ解析」です。でも、データ解析の経験はないし、社内にノウハウもないし、統計学やら機械学習やら、何から勉強すればいいのかわからない……。『データ解析の実務プロセス入門』(あんちべ著、2015年6月刊)は、そんな方のための一冊です。

ヘッダ

以下では、「データ解析初心者のためのQ&A」を、『データ解析の実務プロセス入門』の第1章から抜粋して掲載します。これからデータ解析の世界に踏み出そうとされている方は、ぜひ参考にしてみてください。

★著者あんちべ氏による寄稿文:「データ解析実務のいま:『データ解析の実務プロセス』発行から4年を経て」もあわせてご覧ください。

図_小

イラスト:とよのきつね。(『データ解析の実務プロセス入門』第1章より)


Q&Aデータ解析初心者が抱く疑問

著:あんちべ

【目次】
・データ解析は意外な発見を求めるものなの?
・高価・高度な分析ツールは必須?
・ビッグデータは必須?
・分析手法ってどうしてこんなにたくさんあるの? どれだけあるの?
・分析手法って何個覚えないといけないの?
・難しい高度な分析手法を使うのはなんのため?
・データ解析をするには、統計学もプログラミングも施策提案もできるスーパーマンじゃないといけないの?
・データ解析って統計分析をするだけじゃないの?
・データ解析って必ずやらないといけないものなの?

① データ解析は意外な発見を求めるものなの?
データマイニングの分野でよく出される例として「おむつとビール」があります。大量の購買データを分析したところ、おむつを買う人はビールも一緒に買うということが明らかになり、おむつとビールの売場を近くにすると売上が上がったというものです。これは意外性があり大変面白い話ではあります。データマイニングとは何かを説明するときほぼ毎回のように登場する話となっており、この話を引き合いに「データマイニング=意外な発見をするものである」というように語られることもしばしばあります。しかし、我々が求めるべきなのは意外性ではなく有用性であり、有用性と意外性は必ずしも一致するものではありません。知るべきことを当たり前のように知ることが、むしろ重要となる場合があります。

当たり前の話から価値を抽出した例として、クックパッド社の提供している「たべみる」というサービスのエピソードを紹介したいと思います。クックパッドは料理レシピ閲覧サービスで、たべみるはそのサービス内の検索キーワードのログを販売するサービスです。たべみるではレシピの検索回数だけではなく、「どの地域で」「何月に」検索されたかのデータも取得可能です。ある食品小売業者がこのサービスを利用したときのことです。そのとき明らかになったことは、「冬は鍋の検索回数が多い」ということでした。これは全く当たり前の話のように聞こえます。しかし、具体的に冬とはいつを指すのでしょうか。もちろん、暦の上での話ではなく、実際に鍋が売れる時期は一体いつからいつまでなのかという意味です。食品流通業界では「鍋の季節は遅くても1月までで、それ以降は売れ行きが落ちるに違いない、だから鍋物の取り扱いは抑えるべきだ」という業界の常識があったそうです。しかし、たべみるのデータを参照すると、1月を過ぎても鍋物の検索数は落ちませんでした。そこから、1月以降でもまだまだ鍋物は売れるのではないか、これまで早くに鍋物を引き上げていたことで商機を捉えそこなっていたのではと考え、1月以降も引き続き小売店で鍋物を取り扱うことによって売上向上を果たしたのです。

このように、一見当たり前のように見える知見であっても、詳細に把握することによって価値につなげることが可能です。当たり前だと言われていることも、よくよく考えてみるとおぼろげな関係性しかつかめていないことはよくあります。データ解析をするには「知る」と「把握する」と「理解する」の違いを区別する必要があります。この違いを先ほどの冬の鍋の例で説明すると

知る:冬になれば鍋が売れるという現象をなんとなく知っている。

把握する:散布図を描いたり相関分析という分析手法を用いたりして、時期や気温と鍋の売行きの関係をつかんでいる。

理解する:なぜそのような関係が成り立つのかの理由を、その分野の知識と合わせて説明・解釈できる。

となります。具体的に何がどの程度影響を及ぼすのかを把握・理解することによって価値につなげていきましょう。

② 高価・高度な分析ツールは必須?
必須ではない、というのが筆者の考えです。あった方が便利なときもありますが、決して高度なツールだから分析計画を立てる必要がなかったり最適な手法を自動で選択してくれたりするわけではありません。高価・高度なツールになると、見栄えが良かったり、計算速度が速かったり、便利な細かい機能が搭載されているケースもあります。コストパフォーマンスを考慮して決めればよいという程度のもので、決してないといけないものではありません。

③ ビッグデータは必須?
本書はビッグデータとは何かを語る本ではないため詳細は割愛します。ここでは単に大規模なデータだとお考えください。ビッグデータはあれば便利なときもあるという程度のものです。決してビッグデータがあれば様々な統計的問題がたちどころに解決されるわけではありません。ビッグデータの例としては、ある自社サービスの全顧客の全行動履歴をデータとして保存している場合などがあります。このようなビッグデータを手にしていれば、悉皆調査(全ユーザの全データを対象とした調査)が可能となり、サンプリングの方法の選択やサンプリングゆえに発生する問題に頭を悩ませなくてもよくなるので、楽といえば楽です。また、データをスライシング(データを何らかの軸、たとえば性別や年代などに沿って分割すること)して見たときでも各層に十分なボリュームがあるのも魅力です。データサイズが小さいときは、スライシングすると各層にわずかなデータしか残らず統計的な分析が困難になるケースもあるからです。ただし、ビッグデータを扱うにはそれ相応のコストをかけてシステム構築・開発・運用を行うことが必要になります。開発やインフラを受けもつ別部隊があるならそこに協力依頼するのも手ですが、ビッグデータを収集・管理・集計・分析するシステムを一手に引き受けつつ分析も進めるというのは至難の業です。費用対効果に見合うか、人員を調達できるか次第で検討してください。

④ 分析手法ってどうしてこんなにたくさんあるの? どれだけあるの?
データの性質や分析の目的によって適切な方法が異なるからです。しかも手法数は「データの性質×目的」という組み合わせで増えていくため、全体として膨大な数になっています。しかし、データの性質や目的を絞れば、大抵の場合比較可能な数に収まります。分析手法が一体どれだけあるか、それは専門家であっても把握しきれません。そもそも何をもって分析手法と呼ぶのかも曖昧ですし、しかも原理的に全く同じ手法なのに業界が変わるだけで呼び名が変わっているものもあります。

初学者の方と話をすると、すべての手法を理解した上で最適な手法を選択したいという要望を伺うこともありますが、はじめは、必要に迫られたときに一つひとつ理解するようにしましょう。

⑤ 分析手法って何個覚えないといけないの?
やりたい分野や領域のやりたいことに応じて主流の手法を2、3覚えることから始めてください。統計学入門者にとって、統計学の門を外側から眺めてみると分析手法が山のようにあるように見えると思いますが、分野や目的を絞ると手法は数個に絞られることも多いものです。第7章で目的の異なる三つの分析手法を説明しています。手始めにここから学んでください。

⑥ 難しい高度な分析手法を使うのはなんのため?
特殊な状況に対応するためです。一つは、データが異常に偏っていたり、データのサイズより変数の方が多すぎたり、数ある変数のなかでほとんどがゼロだったりといったデータの性質によるもの。もう一つはリアルタイムで実行する必要があったり、短時間にあまりにも多くの量のデータを捌く必要があったりという機能的な要請によるものです。あるいは、データに抜けがあったり、バイアスがあるデータしか取れない、データサイズが小さすぎるなどのデータ取得・収集のプロセスに問題がある場合もあります。いつかこれに対峙しなければならないときも来るかもしれませんが、応用的な手法は必要になってから学べばよいでしょう。

⑦ データ解析をするには、統計学もプログラミングも施策提案もできるスーパーマンじゃないといけないの?
データ解析に関連する各々の分野には専門家がおり、その専門領域については依頼することもできるため、全分野のエキスパートであるスーパーマンになる必要はありません。データ解析者に求められるのは、すべての分野を自力で成し遂げられるようなスーパーマンとして振る舞うことではなく、データ解析に関連する全プロセスの監督者となることです。ここで言う監督者の役割とは、各々のプロセスにおいて何をしなければならないかを明示し、各プロセスで問題が発生すれば関係者と協議し解決を図ることです。データ解析者の仕事は最終的な目的を達成すべく監督としての役割を果たすことであり、個別のタスクや問題点は各々の専門家に依頼して解決を図ることも多いでしょう。

⑧ データ解析って統計分析をするだけじゃないの?
誤解されがちですが、データ解析において統計分析はいくつもあるプロセスのうちの一つでしかありません。「データを分析ツールに掛けて分析結果を出すことだけが役割であり、データを収集したり分析結果をもとに施策を提案したり施策を実施したりするのは自分のタスクではない」というのではデータ解析者とは呼べず、ただの分析ツールのオペレーターにすぎないと言えます。よく「(自分の分析自体は問題ないが)目的設定が悪い、データが悪い、施策が実施されない」などと言って分析以外のプロセスに何か問題が発生しても他人事としてしまうデータ解析者がいますが、それは間違っています。目的設定から施策実施までをすべて実践することで初めて価値を得られます。

⑨ データ解析って必ずやらないといけないものなの?
データ解析が威力を発揮するには、その各プロセスを十分に実施できるという条件が必要です。実際問題として、その条件を満たせないことも多々あります。十分な目的設定やデータ設計を行う時間がなかったり、目的に沿わない不揃いなデータしかなかったりする場合に、無理やり分析を行い施策を決めるのは、かえって勘や経験で意思決定するよりも悪い結果を招く場合すらあります。たとえば、偏ったデータから誤ったユーザ層にターゲティングしてしまい、実際の大半のユーザが求めていないサービスに注力してしまうケースなどです。データ解析はどんな分野でもどんなときでも万能無敵のツールだというわけではありません。

出典:『データ解析の実務プロセス入門』第1章

***

『データ解析の実務プロセス入門』 あんちべ著
☆頼れる上司や先輩も,既存のデータベースや分析ノウハウもない.
それでもたったひとり,データ解析に挑むあなたへ☆
実務における“プロセス”と“良きデータ作り”に焦点を当てた,データ解析の入門書.
計画を立て,データを集め,分析し,計画を見直し,失敗しながらも結果を出すまでの全行程を詳しく解説します.初心者にも使いやすい無料ツールを用いた分析実践方法や,SNS企業にて日々データ解析に従事する著者だからこそ書ける分析例も紹介.新商品のマーケティングや宣伝広告の効果検証などへ幅広く応用できる基礎を身につけたい人に,必携の一冊です.

◇ 効率的に分析するための各ステップとは?
◇ 分析手法よりも、価値を得るために大切なこととは?
◇ データ解析を“失敗”に終わらせないためには?
◇ 大事なのはデータの量より,データの“作り方”.
◇ 分析結果を価値につなげるために行う“運用”とは?
◇ アンケート調査やテキストの分析にも挑戦!

――これが,統計屋稼業の心得だ!

【書籍目次】
第1章 データ解析概要
第2章 データ解析のプロセス
第3章 良きデータ
第4章 探索的データ解析
第5章 運用
第6章 テキストマイニング
第7章 分析手法手習い
第8章 解析事例

★関連記事:


この記事が気に入ったらサポートをしてみませんか?