見出し画像

【0.はじめに】現代短歌のテキストマイニング――𠮷田恭大『光と私語』(いぬのせなか座)を題材に

はじめに

日本語の韻律は、ひとの思いや考え、見聞きしたことを素材として、数えきれないほどの詩歌を作り出してきました。この世に歌が生まれるたびに、その歌にぴったりなよみ方をみんなで語り合う。その営みにも、深すぎるほどの歴史があります。その積み重ねの場に、近ごろ流行りのテキストマイニングを持ち込んだら何が生まれるか。それが私たちの試みです。

uniはデータサイエンスのようなことを生業にしている人で、自然言語処理の技術で、文章や文芸作品を機械的に「読む」ことについて理解を深めたいと思っています。笠井は「10日間で作文を上手にする方法」を編み出したい人で、臆見や私情にとらわれずに「書く」ことに憧れています。ひょんなことから2人は、著者の了解を得て、『光と私語』の本文データを用いたテキストマイニングを試みることになりました。

私たちはデータセットを作り、分析対象とする単位を決め、形態素解析を行ったあと、単語の頻度分布、共起語ネットワーク、係り受け解析、品詞別出現率の集計、古典的指標の算出、大規模コーパスとの比較、肯定・否定表現の時系列推移、自動要約アルゴリズムによる重要文の検出、分散表現を用いた単語間の距離計算といったことを行いました。すぐできることはだいたいやったかな。

ほぼすべての分析はuniの独擅場でした。笠井は簡単な集計結果を得意気に語る練習をしたほか、テキストの素読み、先行論文の収集、論調の分析、精読する文献の選定、参考にする研究手法の抽出、計算結果の解釈、得られた示唆の要約、利用用途の話し合い、価値づけのためのシナリオ考案、著者たちへの披露と意見交換、今後の課題や見込みのある分析アイデアの整理、そしてこの「読書感想文」の執筆を行いました。

気づけばたくさんの知識が得られていて、そのすべてを紹介するには紙幅が足りません。そこで今回は、私たちが実行した、「ちょっと遠回りな読書」の感想を、かいつまんでお伝えします。


クレジット

著作 笠井康平 uni
協力 𠮷田恭大『光と私語』(いぬのせなか座)

※このマガジンの表紙画像は、次の写真をもとに、「このマガジン全体」に含まれる単語のうち、頻出するものを用いて作成されました。「どこか遠くの部屋で、あなたや私と暮らす犬」のような気がしたからです。

URL:https://ccsearch.creativecommons.org/photos/c969daf6-7846-468a-8ec2-045b07861f14

licence:"2019/365/39 Sun Dog" by cogdogblog is licensed under CC0 1.0

query:dog, room, light


この記事が気に入ったらサポートをしてみませんか?