【書評】テキストマイニングの基礎技術と応用 第1章 テキストマイニングの基本

この章では、下記の構成になっている。

1.1 テキストマイニングが可能にすること
1.2 検索や分類とテキストマイニングの違い
1.3 テキストマイニングの基本的な仕組み
1.4 テキストマイニングの難しさ
1.5 テキストマイニングのための自然言語処理
1.6 テキストマイニングのための分析技術
1.7 テキストマイニング成果を出すための留意点

個人的に印象的だったのが、本書の著者らは、テキストマイニングで「成果を出す」という意思を強く感じたことだ。第1章では軽く触れている程度ではあるが、成果を出すための試行錯誤の経験やノウハウが詰まっている内容となっていると期待できる。

テキストマイニングというと、類似度を使った分類などを思いがちだが、それでは不十分だと指摘している。なぜなら、人間が期待する分類を機械的に実現するのは難しいからだ。やってみると分かるが、文書の分類は、極めて主観に依存するものだ。立場や観点によって異なるので唯一の答えというものがない。そのため、「オレの考えた最強の分類」みたいなものが多い。
さらに、テキストには省略や書き間違いなども多く、それがノイズとなって判断が難しいということもよくある。
また、分類するということは、情報を大胆に削ぎ落としてしまっている、という事である。
本書では対象とするテキストマイニングを以下のように述べている。

本書で対象としているテキストマイニングは、このような情報の削ぎ落としをしなくても、大量のデータ全体を活用できるようにする技術であり、この技術を活かすには、基本的なデータ活用への考え方を変える必要がる。

テキストマイニングの難しさの節では、以下の部分がとても共感した。

情報抽出結果を集計した件数にはノイズが含まれている可能性があり、概算的な数値と考えるべきである。
ここの件数にはこだわらずに、件数の時系列的な変化や、全体における割合を捉えて知見を見出すような分析をすることが肝要である。

また、テキストマイニングに限らずデータ分析全般でも言えることであるが、以下の部分にも共感を持てた。

誰にも気づかなかった知見を得たとしても、それが役に立たなければ、意味がない。
テキストデータから何が分かれば有益化を予めできるだけ多くリストアップしておき、

後半の方にも、テキストマイニングが決して魔法ではなく、考えなしにとりあえずやっても上手く行かないことや、逆にしっかりと時間をかけてアイディアを練り試行錯誤すれば確実に成果が出る、ということが書かれている。

第2章〜第5章が基盤技術の解説、第6章〜第7章が活用例の紹介、第8章で将来像の展望という内容になっている。基礎から学びたい方は順に読み進め、基礎が分かっている方は第6章から読むのが良いだろう。



この記事が気に入ったらサポートをしてみませんか?