見出し画像

【4.データセット】現代短歌のテキストマイニング――𠮷田恭大『光と私語』(いぬのせなか座)を題材に

(承前)

入手の経緯

 私たちのうち、笠井康平はいぬのせなか座に属している。いぬのせなか座は「光と私語」の制作と刊行を手がけた。著者とはそれ以前から親交がある。だから元データが入手しやすかった。
 本文テキストの二次利用を快諾してくれたことも大きい。著者は権利指定を明言しておらず、私たちもあまり細かい確認をしていないが、これまでの声明から察するに、「出所の表示」を行い、「非営利利用」するなら、よほど悪質な、それこそ著作者人格権を犯すような使用をしなければ、許されるようである。
 医者嫌いの高齢者のように、科学的な分析そのものに、反知性主義的な不快と不信を示す人もいる。それに比べて著者は、自作の批評にも慣れていて、未知の技術への偏見もなく、被験者になることに前向きな姿勢を示してくれた。歌集の論評では、「人生」「私性」「作者」といったものに、ともすれば話題が集中しがちだ。その状況に正当な疑義を持ち続けていた。それもデータセットを入手しやすかった理由だ。

データセットの説明

 今回は3種類のデータセットを用いた。

- 『光と私語』の本文テキスト。
- 国立国語学研究所「現代日本語書き言葉均衡コーパス」BCCWJ品詞構成表(BCCWJ)
- 小椋秀樹『日本語話し言葉コーパスの構築法』(CSJ)より、コーパスの形態素情報

『光と私語』本文テキストは、もとの文字列の配置を解体して、次のような項目定義から成るデータセットに加工した。このうち、「短歌じゃないかもフラグ」は、本文の鑑賞と、分析対象の切り分けに用いた。「初句」から「変なことしてるフラグ」までは、あとで何かに使えるかと思って作ったが、今回はとくに使わなかった項目である。


図:『光と私語』テキスト分析用データセット

画像1


どのように作成されたか

 装釘前のテキストデータをMicrosoft Word形式で受け取った。それをGoogle SpreadSeetに1行ずつ転記したうえで、1首または1文に対して、通し番号と連作区分を採番した。この歌集には、韻文と散文の間隙を突くような歌群があり、それらには「短歌じゃないっぽい」というフラグを立てた。分析用のデータセットを作りながら、「判断に迷わせる」仕掛けをしているなと私たちは思った。

今後の工夫

 出現順、句切れ、句またがりなども、データセットに加えた。ただし、今回の分析には用いなかった。また、この歌集では、現代短歌ではよくなされるように、いくつかの約物が何らかの効果を狙って用いられている。それらも用いなかった。一般に、テキストデータを前処理するときは、約物を削除または除外することが多い。それらに着目した分析も有益かもしれない。加えて、音数や音素をメタデータとして与えることも行わなかった。それが行えれば、声で読み上げたときの「印象」を評価できるが。



この記事が気に入ったらサポートをしてみませんか?