テキストマイニング野郎の技術書典応援祭 #技術書典
0. はじめに
技術書典ファンの皆様、参加予定だった皆様、いかがお過ごしでしょうか。後藤和智事務所OffLineの後藤です。
弊サークルは、2008年から同人誌で統計学やフリーの統計ソフト「R」の解説書を刊行してきましたが、ここ最近はテキストマイニングの同人誌ばかり出しております。
テキストマイニングというのは、平たく言うと、文章を単語などの形態素に分けて集計し、そのデータをもとに様々な分析を行うものです。むしろ「計量テキスト分析」と言ったほうがいいのかもしれません。
2014年に「KH Coder」というフリーソフト( http://khcoder.net/ )を知ってから、どんどん分析がおもしろくなって、いまや弊サークルの評論同人誌はテキストマイニングを使っていないものはほとんどないくらいになっております。そんなテキストマイニング沼に皆様をぜひ誘致したいと考えておりますので、よろしくお願いします!
1. 基礎
まずは、テキストマイニングの基礎の解説書から。これにあたるのは、『Text Mining Maniax』( https://techbookfest.org/product/5656441843089408 )です。本書では、フリーの統計ソフト「R」のパッケージ「RMeCab」と、前出の「KH Coder」を使ってテキストを分析する方法を解説しております。
また、東方Projectの人気投票を題材にした『東方人気投票コメント分析で学ぶ計量テキスト分析』( https://techbookfest.org/product/6602668235554816 )もあります。
2. 各論
特定の手法に特化した解説書もあります。例えば2019年夏コミで出した『Twitter Analysis Maniax』( https://techbookfest.org/product/5766280799846400 )は、ツイッターの分析に特化したものです。ツイートの分析はもとより、弊サークルが提唱する、リツイートからアカウントを付置する「リツイート調査」についても触れております。
また、19年冬コミで出した『Book Analysis Maniax』( https://techbookfest.org/product/6158212269080576 )は、書籍のデータ化から分析までの流れを解説しております。
3. 実例
弊サークルでは、テキストマイニングを用いた評論本も技術書典応援祭において配信しております。
『間違いだらけの論客選び』シリーズは、『Book Analysis Maniax』で紹介した方法で書籍をデータ化して、それをもとに多数の書籍をパラメータ化し、比較するというものです。最初は東日本大震災以降の40冊を対象としていましたが、以降は領域を平成年間に広げています。比較こそがテキストマイニングの醍醐味であるという思想を体現したものになっております。
『間違いだらけの論客選び』40冊 https://techbookfest.org/product/5904338882920448
『間違いだらけの論客選び・改』105冊 https://techbookfest.org/product/41810003
『新・間違いだらけの論客選び』283冊 https://techbookfest.org/product/5265439479300096
また、2019年の2回のコミケでは、「性器呼び」や〈ツイフェミ〉概念といった、ツイッターにおける女性差別についての研究の同人誌も出しました。現代の社会を考える上で避けて通れない問題を統計学で分析しております。
1号: https://techbookfest.org/product/5347323383119872
2号: https://techbookfest.org/product/5237212417359872
その他にも、東方Projectの人気投票を分析した同人誌も提供しておりますので、興味を持った方はどうぞ。 https://techbookfest.org/product/6527151570419712
この記事が気に入ったらサポートをしてみませんか?