【3.狙いと関心】現代短歌のテキストマイニング――𠮷田恭大『光と私語』（いぬのせなか座）を題材に

2020年1月31日 19:11

3-1.短歌「らしくなさ」をめぐる5の視点

　これから私たちが報告するのは、逆に、短歌「らしくなさ」を志向する歌集の分析結果である。その歌集は、たとえば前衛短歌やニューウェーブ、ライトヴァース、かんたん短歌、ネット短歌といった、「これまでの」短歌「らしくなさ」を志した先例を踏まえて書かれ、そして、読まれている。口語短歌における秀歌性の高低といった評価にも晒されている。秀歌性とは、どうやら、それ自体が歴史的に形成された、短歌「らしさ／らしくなさ」をめぐる判断基準と、その適用結果の総体である。
　では、「らしくなさ」は何によって判定されるのか。実際の分析結果を示す前に、先ほど行った4つの整理を、ひとつずつ、かみ砕いておきたい。また、もうひとつ、視点を加えておきたい。5つの視点は、個性、定型性、独自性、作為性、時代性に要約される。

個性

1.個性（または私性）。ある作品とその作者のパーソナルデータ（略歴、発言、文体、作歴、歌風、声色、容貌など）を紐づけて鑑賞することの是非。

1-1.デモグラフやサイコグラフなど、著者に帰属されると言われるもの。作品には必ずしも明示されないが、連作や歌集の単位では推察されることがあって、編年的な分析に取り入れられることもある情報の取り入れ。例えば、生い立ち、経験、半生、生涯、人生、生活、ライフスタイル、消費性向、世代意識、時代感覚など。

　作品の単位が31音前後（無音の拍を全句とも8音とすれば40音）と短いことから、他の散文や、非言語による表現とは別の、ないしより込み入った論点が生じる。この論点は、作品分析には向かない。理想的には、作品の全文に加え、その作品が生み出された期間に「著者」を経由した、なるべくすべてのテキストを分析対象とすることが望ましいため。例えば、貧窮歌を著者の借金歴と突き合わせて論じることで、その議論は何を導き出すのか、といった論点がある。

　この分析には、本文に加えて、作者のパーソナルデータのテキスト化が求められる。でなければ、オンライン（文字）かオフライン（声）かで対面した印象に基づく、限られた判断から抜けられない。対面で得られた情報に基づく推察は、当事者の創発と気づきを促すうえ、それ自体を娯楽として楽しめるものの、方法が属人化しやすく、共有可能な分析手法の確立には向かない。

1-2.用語や話法、品詞使用の偏りなど、作品を構成する文字列と、その文字列が従う規則群から抽出できるもの。ありていには、文体、作風、癖、歌風、スタイル、キャラなどと呼ばれるもの。ここでは「キャラ」と呼ばれうることが注目に値する。作者のパーソナルデータに何ら紐づけずに作品解釈がなされるときでも、何らかの選好が働くことがあるから（〇〇系、～～っぽい、▲▲感）。

　その選好が著者／読者の制作／読解を助けもすれば、不利益な先入見にもつながる。その選好が何からもたらされるかは検討に値する。迂回的に、音数律に従わない日本語のTextingにおける、ひとつの倫理規範を導き出せる可能性があるから。

　この視点は、作品データ単体で分析できるうえ、本研究で示すように、比較的簡潔な分析手法であっても示唆に富む。

1-3.作中主体の姿勢や言葉が発せられる向き、暗示される対話または独白の関係。現存最古の区分でいえば、相聞歌、挽歌に類される、ある人物からその人物自身、他の人物、他の事物、他の現象などに向けてなされる、作品内外に向けた発語の態様をとるもの。贈答／返礼、呼びかけ／応答、コール／レスポンス、フォロー／フォロワー。

　この分析には、対象となる歌群が属する本文に加えて、その作品から「発話の向きと大きさ」を安定して抽出する方法が必要だ。論点1-1.と1-2.の分析に、その作品を取りまくテキストの一部または全部を取り込むことで議論できる。抽象化すれば、言語で構成された情報空間における、「大きさ」と「向き」を持つ空間ベクトルの解析である。ただし、その空間に座標を与えるときの軸の設定や、各点が持つ情報の単位によって、その分析の表現は変わる。

定型性

2.定型性。日本語の韻律は七五調（と、それを構成する２音・３音の組み合わせ）で成り立つとされる。長歌、旋頭歌、短歌、連歌、俳諧、俳句、川柳、歌謡など、膨大な歌群がその傍証だと言われる。ここに、不定型や未定型、無型を持ち込む素地が生まれる。

2-1.文単位の定型性。私たちの分析では、この論点は扱っていない。分析対象に、文字コードや音数、リズム、発音といったメタデータを与える必要があるから。

2-1-1.句切れの単位。2句切れ・4句切れ（万葉集）、3句切れ（古今集）、初句切れ（新古今集）、句切れなし。また、句切れごとの文の性質。例えば、要求文、感動文、判断文などの分類提案がある。（出典）

2-1-2.字あまり、字足らず、破調、句またがりなど、作品の一部に不規則や不調和を持ち込むもの。例えば、31音前後（最大40音）の編成が、何音の単語で作られるかを操作する。すべてが1音である場合が一極にあり、31音で1語となる場合が対極にある。初歩的には、句切り（57577）と句内の音数を一致させる。5音なら5音、4音1音、3音2音、2音3音、1音4音、無音の6通り。7音なら28通り。アドリブやスウィング。

2-1-3.難読字、約物、記号、外国語、改行、ルビなど、初読の可読性を下げたり、作品全体の音数を算定しづらい処理を施すもの。文字表記のレベルで、漢字・かな・カナの使用割合や、全体の字数を調整するもの。よりミクロには、書字方向や文字の書き順、一角ごとの動きを操作するもの。フェイントやトラップ。

2-1-4.全体の音数を31音から逸脱させるもの。例えば、上句だけ、下句だけ、句の途中で途切れる、31音だが七五調の句分けで読めない、総音数が31音ではないなど。慣習的には、散文は韻律を持たないとされる。ただし、音素や書記素、形態素、語彙素など最少の意味の単位が組み合わされ、何らかのパターンが構成されることがある。弱い韻律、わずかなリズムなどと言われる。ドレスダウンやアンチマナー。

2-2.連作または部立、章単位の定型性

2-2-1.語義や主題の選択がもたらす定型性。相聞歌、挽歌、雑歌、季節歌、問答歌、旅行詠、二次創作歌など。この効果を知るには、分析単位となる歌群に、一定の規則に従う選好が働いているかを検査することになる。連作名や題辞、詠題とした人物名の距離などが分析の手がかりになる。

2-2-2.物語の起伏や抑揚、中断、展開など、構造に関するもの。表記された語や文単位の分析では抽出しづらく、これまでの歌論でも、安定して適用される手法は多くないと見られる。構造は論理設計によって形成されることから、何らかの論理を指定し、その当てはまりを評価することで、何らかのパターンが見出せるかを調べる方法が考えられる。

2-3.歌集単位の定型性。

2-3-1.連作または部立、章単位の分析を、歌集単位に適用することで得られるもの。勅撰和歌集の歌風の差を論じるときにしばしば用いられ、計量文体学の蓄積も多い。

2-3-2.作家単位の分析は、この派生類型と捉えられる。例えば、「1.個性」の1-2.の分析や、「3.独自性」を歌集または作家単位で分析する場合。

2-4.歌群または共同体単位の定型性。

2-4-1.ジャンル内での比較。2-1.から2-4.までの判断を、複数の歌集または歌群に適用するもの。結社や同人誌など、媒体ごとの作風。公募新人賞や選考委員ごとの傾向など。
* 2-4-2.ジャンル外との比較。詩型融合の焦点。俳句、川柳など韻律を持つ詩歌との差異。改行詩、散文詩、ト書き、日記、例文、コピーライティング、Tweetなど、韻律を持たない短詩芸術またはshort textingとの差異。「3.独自性」の論点といくらか重なる。

独自性

3.独自性。つきすぎ、寄せすぎ、盛りすぎ、ありきたり、月並みなど、短歌の出来不出来を論じるときに語られる難点。それらに知悉し、熟慮して避ける／踏まえることで、技巧性がある／ないと言われる。この判定は、何から成立するのか。制作の素材は、日本語コーパスの全体からある規則で文字列を抽出し、限定し、（無音の拍最大40音を下地とした）31音を構成したもの。その手順や着想に独自性がある／ないと言われる。このとき、私たちは何を評価しているのか。

3-1.何らかの定型性に対する準拠度の比較。
3-2.複数の個性を比較した場合の、一致度の比較。
3-3.複数の個性から抽出される、傾向や反復との比較。論点は「5.時代性」に重なる。

作為性

4.作為性。あざとさ。短歌は、いくつかの作品群を背景とし、その場で作られた他の作品との関係のなかで消費される。

4-1.本歌取りや見立て、掛け詞、返歌など、手法として命名され、認知されたものがある。一方で、語単位、字単位の踏まえ／外しまで含めると、作為性の発生とその認定には、その作品が消費される共同体での認知醸成や合意形成が欠かせない。では、手法はいかにして手法と呼ばれるのか。

4-2.他のテキストとの関係は、そのテキストだけからは読み取れない。それを読む読者の記憶による補正で成立する。他のテキストとの距離があまりに近い／遠いとき、そこには作為性が読み取られる。ある単語を用いない、ある話法を多用する、句の展開に既視感があるなど。

4-3.こうした作為性の見えやすさ／見えにくさが、短歌という表現を共通に特徴づけるものか、ある特定の状態にあるテキストに対する、特定の規則に準拠した審理・裁定なのかは峻別しづらい。にも関わらず、しばしば論評の俎上にあがる。潔癖にいえば、31音の形式を選ぶこと自体に作為が働く。何らかの規則に準拠することの快／不快が争点になる。

時代性

5.時代性。例えば、先行する作品群との距離。とりわけ、論評や言及が集中した作品群との差異（勅撰集、古典、名作、傑作など）。あるいは、時事や歴史、事件その他のできごとからの取材。その選定に偏差が見られる場合に、これを何らかの個性、定型性、独自性、作為性とする場合。あるいは、短歌という表現のなかで、一定の時間または空間的区分を設けたとき、一定数の表現に、共通するコンセプトやテーマ、モチーフなどが抽出できる（と感じられる）のはなぜか。2方向から検討できる。

5-1.同時代性。ある時間区分のなかで共通性が見出だされる場合。反-現代を含む。

5-2.通時代性。しばしば限られた空間範囲のなかで、ある時間区分をまたいだ共通性が見出だされる場合。反-伝統を含む。

3-2.枠組みの整理

　さて、ここまでの立論をまとめておきたい。読み・書き（リテラシー）の工業化は、短歌という共同体の消費構造を変える可能性がある。しかし現状では、その変化を促す研究領域への注力が、妥当になされているとは言いがたい。問題設定は根本からずれていて、共同体にはありふれたサイロ効果が生じている。
　2010年代の日本語による短歌を用いた自然言語処理は、人間「らしさ」を再現するために、短歌「らしさ」を生み出すアルゴリズムの設計を試みてきたと要約できる。その目標は2つに大別できる。A.自立した文章を生産-消費する「装置」を開発すること。昔ながらの「書き手／読み手（プレイヤー）」を模した、人間「らしさ」を作ること。B.価値を持ちうる文章が生産-消費される「条件」を明らかにすること。短歌「らしさ」を作り出す、「読み・書き（リテラシー）」の分解と再点検。

　短歌の共同体では、他の言語表現がそうであるように、日常的に生産される短歌全体に占める、市場流通する歌群の割合が低い。人間「らしい」短歌「らしい」文章の生産-消費装置を作るよりも、共同体が抱えるボトルネックを特定し、対処する「条件」を分析したほうが有益だろう。B.の試みのほうが、現状改善に資するのではないか。しかしおそらく、この試みは共同体に歓迎されない。詳しい「条件」の開示はキュレーション（選歌）の権威への挑戦だと受け止められかねないし、偶然や偏りの介在しない選定には「ありがたみ」を感じにくいのが人情というものだから。
　もっとも、「読み／書き」がどのように行われているかを、テキストだけを材料にして、読者自身の知識や経験を補助材料とせずに検証するのはかなり難しい。書き手／読み手の認知プロセスを反復可能とするなら、「読む／書く」という行為がなされるとき、行為者の身体にどういった変化が起きるかを分析対象とすることになる。追試可能な調査設計を行わないと、一過性の不定愁訴や、共訳不可能な信仰告白から抜け出せない（言語表現なんて所詮はただの遊びなのだから、それでかまわないという反論は正当だが）。

　他方で、テキスト単体の性質評価は、読者自身の知識や経験を、むしろ介在させずに、テキストをどのような単位で、どんな分別法で、どのように数え上げ、いかにして読みとくかという問題に落とし込める。評価手法に恣意が入り込む余地はあるけれども、無防備な自分語りよりは透明性のある分析が行える。多くのエンジニアがオープンにアクセスできる分析手法では、人的判断の繊細なニュアンスを汲みとることは不可能で、無理に目指すと、その労力の割りに得られる成果が乏しいけれど、いくつかの揺るぎない規則で、基礎的な事実を導き出すことで、「当たり前に確からしいこと」の合意形成を促せる。私たちの分析は、おそらくそれに資する潜在性（ポテンシャル）がある。

3-3.解くべき問題

　とはいえ、私たちは潤沢な資金と計算資源を与えられた専任の研究者ではなく、趣味で気まぐれに分析手法を試してみただけの一般人だ。当たり前だけど、先述した問題意識のうち、対応できる論点の見極めを行ったほうがいい。私たちが使える材料は、『光と私語』のテキストデータのみ。分析に用いたツールは、学術研究や私的使用の範囲で、個人の分析者がオープンにアクセスでき、分析結果を公表できるものに限られる。持ちうる知識と手法で解けない問題は解けないから、むやみに解かないほうがいい。5の観点から派生した（さしあたり）10ある問題のうち、扱ったのは3つ。それをもとに、さらに3つの問いを考えてみたい。

1.個性：
1-1.パーソナリティとの紐づけ：データ不足のため、実行できない。
1-2.文体分析：歌集のテキストデータがあれば実行できる。簡単な形態素解析から、得られた指標の探索、分類、評価まで。
1-3.対話分析：文ごとの（意味ベクトルではなく）発話方向が指定されていないため、実行できない。

2.定型性：
2-1.文単位の分析：音数や発音、句切れ、表記といったメタデータを与えていないため、単語の出現数や文単位の文字数に着目した手法しか実行できない。
2-2.連作単位の分析：文単位の品詞や感情スコアを用いた分析ができる。
2-3.歌集単位の分析：文や連作単位の単語、品詞、意味ベクトルを用いた分析ができる。
2-4.歌群または共同体単位の分析：単一の歌集だけを分析対象としたため、実行できない。

3.独自性：
いくつかの歌集または短歌から、出来不出来を評価するための判断条件と、その判断に用いた情報に関するメタデータを揃えれば、判断条件を分類器として、メタデータを入力情報として使用できる。破調の大小や、語彙の稀少度、句切れの用法、主題に対する距離など、条件を明らかにしやすい性質であれば、判断しやすい。

4.作為性：
なるべく近い時期の、より近い共同体のなかで刊行された、他の複数の歌集との比較を行わなければ、分析できない。他の複数の歌集のテキストデータを揃える仕組みから作らなければならない。

5.時代性：
3.と4.の結果をもとに判断することになる。文字列だけでは評価できないから、少なくとも、その短歌または歌集の作成年月日をメタデータとして持ったほうがよい。入手しやすい、まとまった書誌が必要だろう。

3-4.私たちの関心

　分析結果を述べる前に、私たちが何に関心を寄せていたかも書き残しておきたい。私たちには、短歌の共同体で何らかの名誉を求めるつもりがない。世俗的な関心ではなく、技術的な関心を大切にしたかっただけだ。素材的な関心、手法的な関心、道具的な関心があった。現代短歌のテキストデータと、近年に登場した新しい自然言語処理アルゴリズムの両方を用いた分析は、私たちの最善によって知りうる限り、日本語圏ではまだ誰にも書かれていなかった。探したけれど見つからないのだった。少なくとも私たちにとって初めてだった。それだけでも試してみる理由になった。「おもしろそうだった」からだと言えば済むのかもしれない。

3-4-1.素材的な関心

　英語圏では、自然言語処理の技術を実作の助けになるようなかたちで応用する学術研究が盛んだ。『ベストセラー・コード』のように、その邦訳が続々と出てきている。日本語の文芸書でもそれをやってみたいと私たちは考えた。よく知られるとおり、日本語は膠着語であり、文構成に自由度が高く、品詞の種類や係り受け構造がしばしば見分けづらい。漢字かな交じり表記に、ローマ字や、カナ書きの外来語、原語のまま表記される外国語も混在する。表記に当たって単語の切り離しも行われない。略語や俗語も考慮すると、未知語の対応が他言語にもまして課題となる。表記のための文字数が少ない西欧語とちがい、テキストデータの前処理が入念に必要な言語だ。外国語で確立された手法をどこまで適用できるか。それ自体が、日本語と言う素材に対する研究課題である。機械学習アルゴリズムの性能テストにぴったりな、日本語による日本語のための日本語のデータセットはまだ多くない。

　ましてや、ともすれば「難解だ／無意味だ」といわれる文芸書のデータセットは、どのようなレベルデザインで作ればいいのか。日本語圏には、「難解さ」「無意味さ」をそれなりの水準で評価するスタンダードすら確立されていない。おまけに、今回は、韻文が大半を占める歌集のテキストデータを用いた。分量の多い散文の分析はいくらか先例がある。短文の分析もそうだ。他方で、「歌集」や「連作」の単位の分析は、古典籍を用いた学術研究にもほとんど例がなかった。わずかな例も、勅撰集ごとの特徴量の差をみる程度。実作上の関心により根ざしたものは見当たらなかった。今回は試験的な手法の適用が大半を占めるだけに、この方向で実践例が増えると、「歌集」の全体を扱う分析手法を開拓し、確立できる気もする。

3-4-2.関連する研究

　短文の自動生成は、俳句や歌詞の制作でも試みられている。（「57577メーカー」「むげんミクうたと深層学習」「深層学習による俳句の自動作成」）。同時代の歌群から「類似」を抽出したり、他時代間の「差異」を評価する研究を通じて、よく使われる指標も確立されてきた。品詞（形態素）の含有率や組み合わせ傾向がその定番で、句ごとに求めた類似度の総和、歌全体で共通する文字列の数も用いられる。例えば、係り結びの衰退や、時代ごとの語彙特性を、より厳密に記述できる。
　それらの指標・手法を用いた、著者推定や文書分類も、ポピュラーな分野だ。武士歌、女性／男性の歌、季節歌、恋歌など、いくつかの観点が考案されている。一連の作業を機械学習で行うものもある。詩歌のレイアウトを、画像認識で試みる例も見つかった。
　さらに細かい研究もある。音素や声調、韻律を扱うもので、現代とは音韻体系が異なったとされる、万葉集の読解に成果が多い。指定の文書を任意の文字数で分割し、予測や比較に用いる言語モデル（N-gram）の適用や、シソーラス（語彙体系）の開発を、歌集に絞って行った例もある。それらの研究は、公的研究機関による、大規模言語コーパスや形態素解析エンジン、言語モデルの構築と品質管理に支えられている。

3-4-3.技術的な関心

　私たちは依頼を受けてこの分析を行ったわけではない。共同体の利害関係に周到な配慮をしなければならないこともない。素材の制約からも自由でいられる。ありがちに新しい分析手法を取り入れたり、バズワードに飛びつく必要もない。基本の作業をきちんと行って、応用手法で分かることをよく押さえてから、その手法で何ができるか、中立な立場で考えたかった。
　テキストを機械処理させることで、ひとのこだわりや偏り、見栄、見落としも減らせると期待した。ひとが作業に介在する以上、完全な透明性を担保した情報処理は行えない。けれども、暗黙の了解と相互の信頼に根ざした立論ではなく、まったくの部外者にも分かりやすい結果が導き出せないかと願った。

3-4-4.道具的な関心

　新しい野菜を買ったら、新しい包丁で料理してみたい。そう思うのと同じで、まだ試したことのない形態素解析エンジンや、機械学習ライブラリ、分析APIを採用した。ほとんどの分析にはpythonを用いた。1991年生まれのプログラミング言語で、統計解析や機械学習にもよく使われる。なるべく簡潔で分かりやすい書き方を重視した文法設計がなされていて、ライブラリ（他の人が再利用できるコード群）も充実している。
　国立国語学研究所の言語資源（コーパス）も参照した。利用規約を遵守するために、元データは使用せず、公表された論文・報告書と、基礎的な統計情報だけを引用した。それでも、長年かけて整備されたテキストコーパスの、データ品質の高さには驚いた。持続的なアーカイヴ構築の大切さを思い知った。

この記事が気に入ったらサポートをしてみませんか？