見出し画像

【1.目次と構成】現代短歌のテキストマイニング――𠮷田恭大『光と私語』(いぬのせなか座)を題材に

承前

1.要旨

 英語圏では、自然言語処理の技術を実作の助けになるかたちで応用する学術研究が盛んだ。『ベストセラー・コード』のように、普及書の邦訳が日本でも続々と出ている。日本語圏にも、半世紀以上に渡る、計量文体学や日本語コーパス構築の積み重ねがある。
 それらの手法を日本語の現代短歌に試してみようと私たちは考えた。単語の数量や距離関係、感情の流れ、品詞構成などを計量すれば、文献の精読 (close reading)ではなく、テキストの遠読 (distant reading) ができると期待したのだ。
 そこで私たちは、𠮷田恭大が執筆し、いぬのせなか座が刊行した歌集『光と私語』のテキストデータを用いて、単語、文章、連作および歌集単位の分析を行った。この作品が持つ特徴を計量し、描写し、考察した。また、他の日本語コーパスと比較することで、この歌集や、現代短歌というジャンルが持つ性質を明らかにした。


1-2.目次

0.はじめに

1.目次と構成
 1-1.要旨
 1-2.目次
 1-3.あらすじ

2.背景
 2-1.最近の世の中
 2-2.なぜ「らしさ」が問われるのか(1)
 2-3.なぜ「らしさ」が問われるのか(2)

3.狙い
 3-1.短歌「らしくなさ」をめぐる5の視点
 3-2.枠組みの整理
 3-3.解くべき問題
 3-4.関心

4.データセットについて

5.字数、語数、品詞率
 5-1.形態素解析による語彙の計量
 5-2.語の出現頻度とその予測

6.文脈と意味
 6-1.「あなた」の共起語ネットワーク
 6-2.単語ベクトルによる類似度の学習

7.ストーリー
 7-1.極性分析による作品の変遷理解

8.文体と語彙
 8-1.品詞構成の比較(他ジャンルとの)
 8-2.品詞率(MVR)による文章分類
 8-3.異なり形態素比率と語彙の豊かさ

9.結論と参考文献
 9-1.結論
 9-3.参考文献

10.おわりに

11.忙しい方のために
 11-1.抄録版(8,148字)
 11-2.手法と図表

1-3.あらすじ

 𠮷田恭大が執筆し、いぬのせなか座が刊行した歌集『光と私語』に、テキストマイニングを行った。本書はその「読書感想文」であり、全10章から成る。第1章に目次と全体のあらすじを収めた。第2章から第4章までは、前提となる社会動向、関連誌の論調や先行事例、分析課題、データセットの説明に当てた。分析結果を先に知りたい方は、第5章から第8章をお読みいただきたい。結論と参考文献は第9章、今後の展望は第10章にまとめた。忙しい方のために、抄録版も別に作ってある(URL)。

 機械学習を応用した文章生成や文書分類は、2010年代前半に、大きく進化した。それに触発され、日本語による短歌を用いた自然言語処理は、人間「らしさ」を再現するために、短歌「らしさ」を生み出すアルゴリズムの設計を試みてきた。その功罪はさておき、先行例からは5の論点が抽出できる(1.個性、2.定型性、3.独自性、4.作為性、5.時代性)。私たちはこのうち、手持ちのデータセットで分析できる、「1.個性」の根拠づけとなる文体分析、「2.定型性」を形づくる、連作および歌集単位の分析を行った。

 まずは形態素解析を行った。この歌集には、行為の持続や推移、状態を描く歌が多いと分かった。また、一人称と三人称がほとんど出現しない。代わりに「あなた」が多用される。そして、「ない」が「ある」の約2倍出現する。頻出する「ない」は、否定、不能、不在、回避、禁止、義務などの用法で使われていた。

 次に、単語埋め込みベクトルを用いて、意味関係の描画も試みた。1首単位での学習結果から分かったのは、「あなた」は「わたし」と少し近く、「私」からは遠い。「私」は「恋人」よりも「電車」に近い。そして、極性分析を行い、連作ごとの感情表現の流れも測定した。1冊のなかで極性スコアの起伏が数多く生じていた。全体では肯定スコアの高い連作が多く、著しく否定スコアの高い連作は少なかった。

 さらに他の日本語コーパスと、品詞別含有率の比較を行った。やはり韻文にもっとも似ていた。しかし他の韻文と比べると、動詞が多く、名詞と形容詞が少なかった。ベストセラー、国会会議録にも似ていた。常識的な理解に反して、韻文(詩歌の言葉)は国会会議録(政治の言葉)やベストセラー(通俗の言葉)によく似ていた。よく売れるテキストには、読み原稿や、話すように書かれた言葉が多いのかもしれない。『光と私語』がそれらと似た性質を持つことは興味深い。最後に名詞率とMVR(用比率/相比率)の2指標を組み合わせて、各連作を分類できるか試した。章ごとのゆるいまとまりが観察される一方で、特定の分類に偏らないこと、連作が進むにつれて、おおむね名詞率が高まるとわかった。

 今回は、現代短歌のテキストデータに、計量文体学の測定手法、形態素解析エンジン、日本語コーパスから得られた統計情報、近年登場した自然言語処理ライブラリなどを組み合わせて用いた。ここまで多くの手法を適用し、総合したのは、日本語圏では初めての試みではないか。

 ただし、ひとつの歌集だけを対象とした分析結果で、すべてを説明できはしない。同じ手法を他の歌集に適用すれば、現代短歌のトレンドをより正確に理解できるようになるだろう。また今回は、出現順、句切れ、句またがり、約物の有無を考慮しなかった。音数や音素も参照していない。これらを組み込んだ分析も有益だろう。

 ちなみに、今回の分析内容を図示すると、次のようになる。

画像1

ひとつの「単語」から「1冊」全体まで、幅広く作品を俯瞰した分析を行えたのではないだろうか。



この記事が気に入ったらサポートをしてみませんか?