[ 備忘録 ] Rでテキスト分析(データ準備編)

前回の記事の続きです。




今回は、使用するデータの準備をしていきます。
まず青空文庫から、走れメロスのテキストデータをダウンロード

ダウンロードしたテキストから、物語以外の不要な部分を予め除いておいたファイルを読み込みます。(このとき、文字コードの指定を忘れずに!)

dat_text <- "/Users/shimabuku/Downloads/hashire_merosu.txt" %>%
 read.table(stringsAsFactors = FALSE, header = FALSE, fileEncoding = "shift-jis")

上手く読み込めたかを確認するために、オブジェクト(dat_text)の内容を表示する次のコマンドを実行してみる。

dat_text %>% head() %>% as_tibble()

A tibble: 6 × 1
V1
<chr>
1  メロスは激怒した。必ず、かの邪智暴虐《じゃちぼうぎゃく》の王を除かなければならぬと決意した。メロスには政治が…
2 「王様は、人を殺します。」
3 「なぜ殺すのだ。」
4 「悪心を抱いている、というのですが、誰もそんな、悪心を持っては居りませぬ。」
5 「たくさんの人を殺したのか。」
6 「はい、はじめは王様の妹婿さまを。それから、御自身のお世嗣《よつぎ》を。それから、妹さまを。それから、妹さまの…

上手く読み込めたので、さっそく、MeCabを使って形態素解析を行います。

mecab_results <- dat_text %>% RMeCabDF()

mecab_results を実行すると、結果を見ることができます。
※head(mecab__results) のほうがいいかもしれない。

解析に扱いやすい形にするために、purrr::imap_ dfr() を通します。
また、CSVファイルとしても書き出しておきます。

dat <- mecab_results %>% imap_dfr(~ data.frame(term = ., class = names(.), sentences = .y, stringsAsFactors = F))
dat %>% write.csv("./data/mecab_results.csv", row.names = FALSE)


これでデータの準備が完了しました!


この記事が気に入ったらサポートをしてみませんか?