Rで学ぶテキスト分析の参考書おすすめまとめ

最近流行り?のテキスト分析(テキストアナリティクス、テキストマイニング)について、私の勉強法と関連する教科書・参考書評を書いてみました。


理論編

テキスト分析には様々な手法がありますが、それぞれ統計学的な基礎がもとになっています。その、統計学的、数理的な基礎についても、ある程度は身につけておいた方が良いでしょう。

私が参考にした本は、こちらです。

金(2021)『テキストアナリティクス1 テキストアナリティクスの基礎と実践』岩波書店

2009年岩波書店より刊行の『テキストデータの統計科学入門』を全面改訂したもの、らしい。特に教員から聞いたわけでもないが、如何せん改訂されてシリーズ化されるのだからまあ定評があるのだろうと選定。
中身を読んでみると、確かに様々なトピックが辞書のように網羅的にまとまって入る。が、うーん、学部1年レベルの数学の知識があってもついていけないような箇所が少なくない。特に線形代数や統計学の基礎を持っていないと、きちんと読破するのは辛いのではないか。それに、初学者向けのご丁寧な解説があるという感じでもない。帯には「まずこの一冊」のようなことが書いてあるが、ちょっとそれはお勧めできないと思う。
Rのコードがあるのが長所、と言いたいところだが、その気になれば使えなくはない、というくらいで、これを見てRのコードを使いこなすのはR経験者でも大変ではないかと思う。ましてR初心者の私は、もはやコードは一切気にせず読むことにした。
ということで、実際に人に勧めるとしたら次の金(2018)になるのではないかと思う

類書:金(2018)『統計学One Point 10 テキストアナリティクス』共立出版

同じく金氏の著作。上の書籍も2021年に全面改訂したものだし、なぜ相次いで同じ著者から刊行されたのかが不思議である。ページ数が3分の2程に圧縮されたが、中心的な内容はかなり残され、分散表現など周辺的な内容が落とされているという印象。
なので、魅力としては、おおむね必要事項はカバーされたまま、章立てが大きく見直されて簡潔になっていると思われる点である。岩波の本では、全体読んでも今ひとつ章立ての構成がわからず、ある指標がどこの章にあるのか直感的に掴みづらい(まあ索引を引けば良いのだが)といったことがあった。
数学の前提がある読者を対象にしているからだろう、固有値分解などの直感的理解に関する記述が共立本では落とされており、初学者にはその点読みにくくなっているが、まあでも全般的には読みやすくなっているのではないかと思う。値段も岩波本より安いし。
というか、こんなによく似ているので出していいものなのかと思った。

演習編

実際にプログラムを触ってやってみようということ。
社会科学なら、まずRなら間違いはないだろう、という安直な理由でRを選ぶことに。

一冊目(導入):小林(2017)『Rによるやさしいテキストマイニング』オーム社

Rの入門も兼ねて使用した一冊。初学者にもほとんど文句なしというくらい丁寧な解説であった。
テキスト分析の技法としてはカバーしきれていないものもあるため、R経験者はもう少しテキスト分析の内容が入った本(次の石田本など)の方が良いかもしれないが、しかしそれでも捨て難い一冊だと思う。なかなか良い。

導入の参考:石田(2017)『Rによるテキストマイニング』森北出版

RMeCab開発者の石田基広氏が執筆した入門書。読んではいないが、目次を見る限りテキスト分析の項目が手広く収められ、Rの基礎はコンパクトにまとめられているよう。R入門者でなければ、この石田基礎本も良いかもしれないし、入門者でも手に取って比べられる環境にあればやってみると良いと思う。

導入の参考:小林(2023)『Rによるやさしいテキストアナリティクス』オーム社

最新刊。目次によれば、小林(2017)よりさらに基礎を圧縮し、トピックモデル、ランダムフォレスト、スクレイピングなどテキスト分析のトピックに実例を用いながら解説をしているらしい。
小林(2017)の入門からスルッといける感じが損なわれずに解説に成功したら、この小林アナリティクス本推しに変わるだろうが、中身はどうだろうか。内容的には石田(2017)との重複も多そうで、真正面から挑みにいったのかも気になるところ。と思っていたところ、小林氏はTwitterにて既存の3冊本のダイジェスト版にあたる位置づけであると明らかにした。なるほど。
まあただ下で紹介する小林機械学習編と上の小林基礎本を併用した方が全体で見た効果は高いかも。一冊でテキスト分析を齧りたいなら、この本か石田基礎本ということになるのだろうか

二冊目(英語のテキスト分析):Silge・Robinson、大橋監訳『Rによるテキストマイニング』オライリー・ジャパン

研究を考えると、英語文献の解析も効率的にできたら良さそう、というので手をつけたのがこのオライリー本(と呼ぶことにする)。
が、まあいけるっしょ、と乗り込んだはいいものの、dplyrやggplot2、%>%(パイプ演算子)といったRのパッケージに関する知識が前提となり、未修者はやられてしまった。公式にはWickham・Grolemund『Rではじめるデータサイエンス』が前提とされているが、分厚い本でやってられないこと、政治科学系の院生から以前お薦めされたこともあり、次の本で穴埋めすることに。
次に紹介する本でtidyverseの基礎を終えてからこの本に戻ってきたのだが、コードもRに不慣れな人に読むには渋い書き方があったり、松村ほか(2021)では対応していないコードもちらほら。初学者などでまだプログラミングが得意でないと、一人では厳しいかもしれない。ただ、最低限の基礎は松村ほかで固められたので、不足しているところは自分は調べながらなんとか対応できたと思う。
とはいえ、英語のテキスト分析を扱う数少ない邦語文献であり、その点は著者と訳者に感謝したい。英語で分析したいという人にターゲットは限られてくるだろう

二・五冊目(tidyverseの基礎):松村ほか(2021)『改訂2版 Rユーザのための RStudio[実践]入門』技術評論社

dplyrやggplot2、tidyrなどのパッケージ群は総称してtidyverseと呼ばれている。「モダンな」Rの活用として最近流行っているらしい。年配の研究者ならともかく、新米の研究者なら触れておかないわけにはいかないと思っていたので、ちょうど良い機会に。
「宇宙本」と呼ばれているらしい。宇宙要素はほとんど感じなかったが、かなり丁寧にそして必要最小限のtidyverseの基礎が押さえられている、と思う。グラフのところは多色刷りになっているし、さらーっとコードを押さえながら目を流していったら特につまるところはなかった。ウェブスクレイピングやR Markdownも押さえられており、広く薄く、が徹底している本なんだろうと思う。
改訂により、テキスト分析の項目が追加されているので、テキスト分析を考えている人は高くても改訂版を買うと良いだろう

その他応用:石田(2020)『実践 Rによるテキストマイニング』森北出版

目次を見る限り、センチメント分析、構造的トピックモデル、機械学習による予測、単語分散表現といったやや応用的なトピックが扱われている。
単語分散表現だけ図書館で借りて補ったが、あまり記述の相性が合わなかった。他の箇所はどうかは不明。なのであんまり確定的なことをは言えないが、自分が選ぶなら次に紹介する小林二冊の応用編にすると思う。

その他応用:小林(2017)『Rによるやさしいテキストマイニング 機械学習編』オーム社

目次によれば、一冊目として紹介した小林基礎本では扱われなかったトピックも含めて、スクレイピングから、機械学習のさまざまな技法が扱われているらしい。一冊目で高まった小林への期待感もあるし、理論を勉強してから見返すとそれなりに理論的な内容も網羅されている印象で、結局二冊目としては扱わなかったもののその後取り組んでみたいところ。
小林基礎本→機械学習編 と進めることで理論と実践双方の理解が深まるのではないかと思われる

その他応用:小林(2018)『Rによるやさしいテキストマイニング 活用事例編』オーム社

これもサイトしか参照していないが、初心者も視野に入れた構成らしい。具体的な題材をベースに解析をやってみるという形式のよう。理論的な網羅性はすっ飛ばしてとにかくそれっぽいテキスト分析をやってみたい!という人にはいいのかもしれないが、研究の基礎体力をつけるという意味では普通に基礎本→機械学習編と進めた方が良いのではないだろうか。

この記事が気に入ったらサポートをしてみませんか?