データマイニングについて
データマイニングについて
データマイニングの手順「Data mining」について説明しよう。Data mining とは莫大なデータいわゆるビッグデータ〔ありとあらゆる情報例えば位置情報や検索履歴などを集め蓄積したもの〕からその人や企業、会社、国などの利用者にとって有益な情報を教えるということです。例えばビール会社が新作のビールを発表した時おむつと一緒に売ると売り上げが上がったというデータがあるとします。しかしこのデータはビールの売り上げとは関係ないとわかります。その会社以外の会社が新しいビールなどを売るとき売り上げを上げるために必要なデータをこの「Data mining soft」を使うと一見関連のないこのデータも出てきてしまいます。
データマイニングの現実
データマイニングは広大な鉱山から金脈を見つけるというよりは、 『荒涼としたゴミだらけの草原から美味しい果実を収穫する』というイメージではないでしょうか。 金脈はあるかどうか分かりませんが、草原には確実に果実はあるのです。しかし、実際のデータには、 何とも不可思議な使えないデータが混じっていたり、本当に食べられる実がなっている樹なのかもよく分からないデータがたくさんあります。 始めに、草原を掃除してから始めなければいけません、この広大な草原の掃除にはかなりの時間がかかります。 実際に果実を収穫できるまでに、全体の80%の時間を費やしてしまうかもしれません
ようやくデータが綺麗になったとしても、効率良く価値のあるルールという果実を収穫するには、 色々な工夫をしなくてはいけません。このデータをデータマイニングソフトに入れれば、 打ち出の小槌のように宝物が出てくるというわけではないということがわかります。皆さんも使うときは気を付けてください。
データマイニングの手順
データマイニングの使い方について説明しようと思う。
データマイニングは、以下の手順で実施します。
①「目的を定め、目的に沿ったデータを集める」
「ともかくビッグデータさえあればOK」というわけではありません。効果的なデータマイニングを実施するためには、目的と合致したデータを集める必要があります。そのために、まず、データ収集の目的を定め、その目的に沿ったデータを用意することが求められます。
②「収集したデータの加工・整理」
収集したデータには、「ノイズ」が含まれているため、,そのまま分析を行うことはできません。データがある程度揃った後、それらをデータ加工・整理する「データクレンジング」の作業が必要になります。
③「分析(パターンの発見、グループ化など)」
分析のプロセスでは、クラスタリングやロジスティック回帰分析、マーケット・バスケットといった手法を用いて、データのパターンを発見したりグループ化したりします。それぞれの分析手法の詳細については後述します。
④「検証・評価」
分析の実施後、その分析結果について、要因の特定を行います。さらに、検証結果を基にルールを作成・仕組み化し、それを実際のデータに当てはめることで検証・評価を行います。
これらのことからデータマイニングを正しく有効に使いましょう。
(@^^)/~~~
この記事が気に入ったらサポートをしてみませんか?