【5.字数、語数、品詞率】現代短歌のテキストマイニング――𠮷田恭大『光と私語』(いぬのせなか座)を題材に
(承前)
5-1.形態素解析による語彙の計量5-1-1.形態素解析による語彙の計量 まずは下拵えを行う。『光と私語』データセットを、ある言語圏で意味をなす最小の記号・文字列の単位(形態素, morpheme)にまで分解し、記号・文字列の名称や原型、品詞を付与する。この作業を形態素解析という。国語の授業で、単語と単語のあいだに線を引いたり、読みがな(ルビ)を振ったり、品詞を書き添えたりしたと思う。それと同じような手続きだ。扱う情報があまりにも膨大で、その処理が驚くほど速いこと