見出し画像

【近刊紹介】実践 Rによるテキストマイニング(石田基広)

2020年3月末ごろ発行予定の『実践 Rによるテキストマイニング:センチメント分析・単語分散表現・機械学習・Pythonラッパー』(石田基広著)のご紹介です。

ヘッダ

文書をデータとして解析するテキストマイニングは、自動的にキーワードを抽出したり、トピックの種類や変化を調べたりすることができる技術です。アンケートの解析や、書き手の判別など、様々な応用方法があります。趣味や仕事で、テキストマイニングに興味を持っている、やってみたことがある、という方は多いのではないでしょうか?

『Rによるテキストマイニング入門(第2版)』(森北出版)をご存知の方もいらっしゃるかもしれません。2008年に初版、2017年に第2版を発行し、テキストマイニングの定番書としてご好評をいただいています。

画像2

このたび、同著者の石田基広先生による新刊『実践 Rによるテキストマイニング』が発売されます。前著では扱わなかった、日本語テキストを対象とした「センチメント分析」や「単語分散表現」など、注目の手法をRで手軽に実現する方法を紹介します。より発展的なテキストマイニングに取り組みたい方、ここまでいろいろなことができるならやってみようかな? と思われた方は、ぜひ一度手に取ってみてください。

発行に先駆けて、本書の「まえがき」の一部を公開します。

***

『実践 Rによるテキストマイニング』まえがき(一部抜粋)
著:石田基広

前著『Rによるテキストマイニング入門』では、文書(テキスト)を、文字や単語(形態素)、あるいは品詞の頻度(出現回数)を表すデータフレームや行列に変換する方法を解説した。テキストを頻度データに変えてしまえば、ほかの数値データと同様の分析手法が適用可能になる。ユーザーはテキスト(あるいはテキスト群)に対して立てた仮説について、R 本体あるいは拡張パッケージによって提供されるさまざまな分析手法や可視化技法を使って検証できるわけである。

前著では、対応分析、クラスター分析、潜在的意味インデキシング、そしてトピックモデルについて取りあげた。本書では、やや発展的な分析方法を紹介する。すなわちセンチメント分析やペナルティ付き回帰による予測手法、構造的トピックモデル、さらには単語分散表現によるモデリングを、Rで実行する方法について解説している。

センチメント分析は、レストランや映画などのレビューがポジティブかネガティブかを判定する技術である。ポジティブかネガティブかといった2値を判断(予測)する場合、一般にはロジスティック回帰分析がよく用いられている。本書では、回帰モデルの予測精度を高める方法として、ペナルティを導入する方法を紹介する。また、機械学習では一般に、データを訓練用とテスト用の二つに分け(さらには検証用の三つになることもある)、モデルの妥当性を検証する分析手順がとられる。本書では、この手順をルーティン化(パイプライン化)する方法についても解説している。

テキストマイニングでは、単語の頻度などをデータとする。通常の方法では、ある単語がテキスト中に何回出現したかを数えるが、この際、単語の意味、さらに出現位置は考慮されていない。シンプルな方法ではあるが、実用面ではこれで十分に有用な結果が得られることが多い。一方、ここ数年は単語の位置情報を利用して、意味の関連性を数値化する方法が使われるようになっている。これを単語分散表現という。単語分散表現では、大量のテキストからモデルが学習される。こうした学習はコンピュータに高い負荷をかけるため、一般のユーザーには実行しがたいが、GoogleやFacebookなどは、大規模なデータにもとづいて訓練を行った結果を「訓練済みモデル」として公開している。ただし、こうしたモデルはPythonのライブラリを使うことが想定されている。これらをRで利用することは不可能ではないが、かなりの試行が必要となる。幸い、現在のRおよびRStudioでは、Pythonのコードをほぼそのまま実行することが可能になっており、その方法について本書の最後に紹介する。

出典:『実践 Rによるテキストマイニング』

***

『実践 Rによるテキストマイニング:センチメント分析・単語分散表現・機械学習・Pythonラッパー』石田基広著

【目次】
第1章 Rによる日本語テキスト解析の基礎
第2章 センチメント分析
第3章 構造的トピックモデル
第4章 Twitter投稿テキストの評価
第5章 機械学習による予測
第6章 単語分散表現
第7章 RからPythonライブラリを実行

【著者紹介】
石田基広(いしだ・もとひろ)
徳島大学大学院社会産業理工学研究部教授。主な著書に『Rによるテキストマイニング入門(第2版)』(森北出版)、『とある弁当屋の統計技師(データサイエンティスト)―データ分析のはじめかた―』(共立出版)など。

この記事が気に入ったらサポートをしてみませんか?