見出し画像

【2.背景】現代短歌のテキストマイニング――𠮷田恭大『光と私語』(いぬのせなか座)を題材に

承前

2-1.ひとが機械で読み、書く技術

リテラシーの工業化

 簡単な文章であれば、膨大な人数の執筆者を雇用しなくても、機械が、より大量に、より高速に生み出せるようになったと言われる。私たちの目の前には多くの「実例」が示されている。広告コピーの案出しも。決算サマリやスポーツ報道といった定型文を、ニュース記事として自動生成することも。ソーシャルメディアから取材すべき情報源を発掘することも、長文に見出しを自動付与することも、物故者の文体を模した短文を生成することも、対話ゲームから物語シナリオを抽出することも。
 主要な国際IT大手企業は、動画・画像だけでなく、テキスト解析の技術開発を重要な研究テーマに掲げる。その潮流を受け、Microsoft Research Asiaの副所長である周明氏は、「自然言語処理は黄金期を迎えている」と述べた。その報道は専門家の間でほとんど異論を呼ばなかった。(出典

 あと半世紀もすれば、私たちが過ごしてきた2010年代は、こんな風に形容されるのだろう。自然言語処理のためのライブラリが充実し、インターネット上のWebページと、デジタル化された学術資料アーカイヴが大規模コーパスとして活用されたことで、要素技術の研究開発が大きく進んだ。その成長に驚いた出版社や新聞社、広告代理店は、秘蔵していたテキストにその技術を活かしたくなった。各地で共同研究やベンチャー投資、専門家の登用が行われ、その技術は少しずつ制作業務に組み込まれていった。
 とはいえ、セールストークに浮足立ってはいけない。機械翻訳は1940年代末から研究が始まったと言われる。質問応答や予測変換、校閲支援にも長い歴史がある。文章構造の分類と設計のための技術も、かつては映画の脚本作成、やがてゲームシナリオの分岐管理に応用され、制作業務の負荷軽減や、作品の品質安定に貢献する。
 突然変異のように、世界を根底から覆す、完全に機械的な生産技術が、ついに現実のものになったわけではない。自然言語処理には「戦後」と同じくらいの歴史がある。たまたま、文章表現史と並べて語られてこなかっただけで。私たちは「ひとが機械で読み、書く技術」の普及期に立ち会っている。高度経済成長期に、多くの家庭が、全自動洗濯機で、炊飯器で、電子レンジで、家事を「易しく」する技術を身に着けたように。


日本語の詩歌を用いたテキスト分析の歴史

 自然言語処理は詩歌にも応用されている。最古の例は、文法理論のための数理統計と見分けがつかない。1956年には国語学者の水谷静夫(1926-2014)らが計量国語学会を立ち上げている。ジョン・マッカーシーが新しい学術会議の主題を「人工知能」と名づけた翌年のことだ。いくつかの分析手法の提案を経て、1965年には品詞構成比MVRを用いた「文体の統計的観察」が提案された。私たちの分析にも用いた簡潔な指標だ。かたや、校訂済みの全集を底本としたテキストデータベースの構築が、1980年代後半から地道に進められたようだ。2000年代に入ると、それらを用いた和歌集の計量分析やテキストマイニング、機械学習の報告例が増える。
 しかしどうやら、これらの研究史は、自然言語処理エンジニアたちにも、歌人たちにも、あまり顧みられなかったようだ。2010年代には、日本語による短歌を自動生成する数例の試みが生まれた。ところがそれらは、短歌の専門誌で、雑多に「人工知能」と総称された。その内実はろくに語られなかった。単純なスプリクトによる文章の自動出力も、音数計算と禁則処理による組み合わせ検索も、深層学習を応用した時系列解析も、一緒くたに「AI」だと騒がれた。
 人工知能は、なぜかしばしば擬人化された。一方では、「固有の生涯を持たない」「(人間の)生理を理解しない」と否定された。表現技法が持つ歴史と、それを受け継ぐ共同体への信頼が語られた。他方では、作者の技能や撰者の判断を問いなおせると歓迎された。短歌の生産‐流通過程のどこに採用でき、どの作業の精度が上がり、労力が減らせるか吟味された。人工知能と比べて、人間は愚かで、誤り、老い、死ぬことが再確認された。
 私たちは『短歌』『短歌研究』の2誌を参照した。日本で市販される月刊の短歌専門誌だ。『短歌』は毎月4.6万部が発行される(『短歌研究』は未公表)。2018年に「雑誌」カテゴリ全体の返本率は44.1%(出版科学研究所調べ)だった。実売数が平均並みなら、『短歌』は毎月約2.5万部が購読される試算となる。『短歌』読者の75%は60歳以上で、30歳未満の読者は2%(約400人)しかいない(出典)。


2-2.「人工知能」はなぜ擬人化されるのか

「人工知能」はなぜ擬人化されるのか 

誤解を避けるために言い添えると、私たちは各論の細部に深入りせず、どの論争にも与しない。本人の名誉のためにも、煽るような報道をうっかり信じ込んだ、微笑ましい論説にはふれない。ろくに調べずに書かれたらしい、悪意ある当てこすりや誇大妄想も取りあげない。よくも悪くも、雑誌の企画は大づかみでなければならず、近年では雑誌の読者は高齢化が進み、一般には高齢になるほどITリテラシーが下がる。だれを責めてもこの趨勢は変わらない。1930年代に基礎研究期を脱した「television set」が、やがて省略されて「TV」と書かれたように、「artifitial intelligence」も世間に普及するにつれ、「AI」と書かれるようになった。語源が忘れられ、拡大解釈され、誤認や悪用が増えた。それだけのことだ。
 それでもある時、私たちは気づくことになる。市販誌または結社を活動拠点とする歌人、和歌文学者、計量国語学者、自然言語処理エンジニア、ソーシャルメディアと同人誌を中心に集まる若者たち――彼/彼女らは同じ日本語圏で読み・書いているけれども、日常的に情報源とする「メディアがちがう」というだけで、お互いはほとんど没交渉だった。年齢やジェンダー、歴史解釈、職業観、情報リテラシー、所属組織といった「生い立ちのちがい」が、「人工知能」をめぐる「語彙のちがい」と「考え方のずれ」を際立たせていた。明るくいえば、文化的多様性が維持されていた。悲しくいえば、ありふれたサイロ効果が観察された。
 私たちも例外ではなかった。2000年代の学術研究を先行文献として、2010年代に生み出された処理装置(エンジン)と分析手順(アルゴリズム)を採用した。ほとんどの分析を終えたあとになって、市販誌の特集を知った。避けていたわけではなく、単に知らなかったのだ。


ありふれたサイロ

 新しい情報技術が、その実態を理解できない生活者の仕事を奪い、生活を損ねるかもしれない。この不安は、先進各国に広く共通して語られてきた。OECD「スキル・アウトルック2019」日本語サマリーによれば、「生徒の学習到達度調査(PISA)における 15 歳の日本人生徒のパフォーマンスは OECD の平均を大きく上回っており、国際成人力調査(PIAAC)でもパフォーマンスの低い若年者(16~29 歳)は非常に少ない。しかし、職場におけるデジタルリスク、特に職場の ICT 集約度に関しては、日本のパフォーマンスは平均またはそれ以下となっている。また、日本では教室で ICT を利用している教師はほとんどおらず、教育に ICT を活用するための訓練がもっと必要であると述べた教師の割合は 80%と、OECD 諸国の中で最も高い値を示している。」つまり、日本では、若者は新しい情報技術をおおむね使いこなせるが、「職場」で日々を過ごす勤労者たちには、再教育を受けるべき人が少なくない。デジタルリテラシーは、個人が持つ知的能力の一部を構成するに過ぎないものの、この「ずれ」が年代間の文化的多様性(サイロ効果)を生み出したと考えることは難しくない。


ふだんから短歌を読む人たち

 そもそも、短歌はどのような共同体のなかで制作され、消費されているのか。
 短歌結社は2014年時点で246団体の活動が確認されている(出典)。結社数は1980年から2014年の約30年にかけて、26.5%減少した。会員人数の減少も数年おきに問題視される。『短歌年鑑 2019年版』では、調査対象に同人誌や学生団体を加えたためか、367団体(総会員数・45,254人)に増えている(筆者調べ)。母集団の多い宗教・思想団体の短歌会を除くと、500名以上の会員数を擁する結社は13団体ある(降順に、コスモス、新アララギ、歩道、かりん、潮音、水甕、塔、五行歌、心の花、短歌、波濤、地中海、未来)。この上位13社の占有率が27.9%で、50名以下の団体が全体の46.7%を占める(1位の結社が25.4%)。
 新聞の歌壇(一般公募欄)はというと、朝日新聞は毎週約3,000首の投稿があるという。全国紙は他紙でも毎回1,000首単位の投稿があるのだろう。複数首の投稿を認める媒体もあるが、読売、毎日、朝日、産経、日経の5紙だけでも、少なくとも5,000人以上の投稿者が「新聞歌壇」の参加者だろう。
 同人誌はどうか。基本統計は見つからなかったが、参考指標はある。直近5年にわたる文学フリマ「詩歌|俳句・短歌・川柳」カテゴリの出展者数をみると、2014年春の18団体から2019年秋の60団体になった(約66%増)。2019年春は5,166人が来場した。1団体の来場人数あたり平均購入率を1%と仮定すると、1団体あたり約50部で、60団体では約3,000部が流通すると期待される。
 これらのことから、現代の日本では、短歌という表現に、少なくとも5~10万人ほどが参加していると考えられる。もちろん、一人がいくつかのメディアを併読するだろう。先述の推論には、結社に属さない歌人や短歌大会、大学サークル、高校の部活動が含まれない。それでも、この言語表現の共同体は、(数十万人ではなく)数万人都市規模で運営されているとは言えるにちがいない。今後は簡単のために、およそ5万人がこの共同体を構成すると考える。行政区分でいえば、村や町ではなく、市単位のコミュニティだ(数の比較以上の意味を持たないが)。
 ちなみに、深入りしないが、これらの推計人数に、雑誌の購読料や結社の会費、新聞の選歌料、新人賞の選歌料、同人誌の製作費、歌集の予算、その他の助成金を掛け合わせると、短歌という知的財産が文化事業として持つ経済規模が推定できる。情報流通の視点でみるなら、現代短歌は、印刷紙を主要なハードウェアとした古典的なサブスクリプションモデルであり、参加者は短文テキストの作成、送信、共有、保存を楽しむ。この共同体が属する文化圏では、その楽しみの根幹は短文テキストそれ自体の価値になく、「選ぶ/選ばれることの喜びの強さ」と「だれと、どこで、何を共有しながら過ごしたいか」によって、金銭や労力の支払先が選ばれ、支払意欲額が決まる。


毎年生まれる新しい短歌の数

 ところで、光森裕樹によれば、角川短歌賞・短歌研究新人賞・歌壇賞の応募者数は合わせて1,500人±100人ほどで推移する。(出典)30歳以下の応募者は400人±50人ほどで、1誌あたりでは100名±30人ほどだった。短歌人口を5万人と仮定するなら、全体の3%ほどを応募者が占めることになる。また、新しい歌集は2014年に452冊が制作されたという。そのうち50%は上位5社から、30%は私家版その他として刊行された。(出典)直近20年で最多だった2000年(696点)と比べて35%減少している。書肆侃侃房「現代歌人シリーズ」など、調査年以降の動きを高めに見積もっても、近年の新刊点数が年間1,000点に達するとは考えにくい。こちらも簡単のために、年間の新刊点数は500点として話を進める。
 さらに、歌人1人が週に1首、年間で約50首を制作し、1冊あたり250首が収録されると概算する。このとき、人口5万人を擁するこの共同体には1年で250万首の新作が生まれ、そのうち5%(12.5万首)が書籍化される。歌集は年に500点刊行され、1点あたり平均発行部数は500冊とし(延べ25万冊)、年間5冊の歌集を手に取る5万人(延べ25万人)が読むとすれば、延べ6,250万首が延べ25万人に消費される。1人あたり250首で、これは市場流通する歌集の0.4%に相当する。
 つまり、短歌の共同体では、新作短歌全体の5%が市場流通し、そのうち0.4%が広く消費されると期待できる。ごく大ざっぱな推定に過ぎないし、比べるものがないから、この数値が高いとも低いとも言えない。とはいえひとつの目安にはなる。もし、すべての新しい歌がたったひとつの場に出され、すべての参加者にまったくランダムに配られたなら、1人あたり年間50首を作り、50首を読めば、この共同体の生産と消費は均衡する。
 もちろん、そんなことは起こりえない。では、その両極に何があるか。一極では、だれもが新しい歌を作り、すべての新しい歌がだれにも読まれない。対極では、だれも新しい歌を作らず、ひとつの新しい歌だけがすべての万人に読まれる。短歌の共同体は後者よりも前者に近い状態にあるように見える。供給過多と需要不足だ。おそらくは、他のあらゆる言語表現と似たように。


2-3.なぜ「らしさ」が問われるのか

アルゴリズムは再分解できるか

 この帰結はいくつかの示唆に富む。まず、短歌の共同体は、どうやら供給不足をまったく課題としていない。短歌を自動生成する試みは、どれだけ精度が上がっても、この構造を改善しないだろう。(アタリショックのように)供給過多が加速し、市場全体で1作品あたりの価値が下落するならまだしも、アドネットワークがスパムサイトを量産したように、自動生成される歌群はほとんどが見向きもされず、この共同体全域で、「拙劣な歌を取り載せ」ないための、フィルタリング(目視点検)の手間を増やすばかりかもしれない。
 きっと、機械学習で解決すべき課題は別に隠れている。それは例えば、「新作短歌とその読者のネットワークをどう形成するか」であり、「短歌全体から5%を選定するアルゴリズムをどう構築するか」だろう。
 前者は数理計画問題に落とし込めるけれど、終局的には文化政策で改善すべきもので、市販誌、結社、同人誌、新聞歌壇の組織と役割を再編成することでしか果たされない。すこぶる政治的な対応を要するから、私たちがおいそれと扱えない。後者には貢献できるかもしれない。暗黙の表現規制や、流浪する価値判断を同定することで、この共同体が形づくる選択と淘汰の生態系を動かす仕組みを明らかにすれば、「あるがまま」に選ばれた5%とは別の、何らかの「あるべき姿」に沿った歌群を編集できるようになる。そこまで行かなくても、自他の制作がどのような選好に導かれているのかを知る、ひとつの尺度とその用法を定義できそうだ。私たちの試みはこちらに位置づけられる。重ねていえば、これは何かしらへの反発や異議申し立てではない。私たちの関心がたまたまそこに属していた。そのことにあとになって気づいただけだ。


なぜ「らしさ」が問われるのか
 あえて声高に言うまでもなく、専門誌の論考のなかから、私たちの問題意識と重なる叙述も見つかった。「人工知能は短歌を詠むか」は、短歌を自動生成する試みの論評から出発しながらも、読者が短歌を認知し、理解し、評価するプロセスこそが、隠れた問題であるとの論調に行きついた。個々人の見解に深い溝があるとしても、世代を越えた雑多な合議の行きつく先で、より賢明な判断に近づいたことには希望がある。「泥土か夜明けか――人工知能と短歌の未来」は、『古今和歌集』以降の歴史をふり返ったうえで、「短歌におけるリアリズムとは建前がどうあれ、実際のところ作者の実人生を詠み込むことではなく、そこに詠まれている内容をいかにも本当らしく読者に思わせるような言葉の組み合わせを作ることに他ならない」という。そして、自然言語処理を詩歌に応用する試みは、この共同体の生産-消費サイクルと運営作業の工程を、部分的に代替する技術開発であると見抜いている。「適切なデータ」が十分に集まりにくい現状への皮肉も読みとれる。
 ここで着目すべきは、どちらの論考も――そしてここでは取り上げないほぼすべての記事も――人間「らしさ」や短歌「らしさ」を、暗黙の前提または批判すべき論点としていることだ。なぜ、「らしさ」(identity)がこれほど問題になるのか。


短歌「らしさ」の生成
 ひとまず、この言語表現が、定型(らしさ)との距離を致命的なものとして重視する芸術だからだとは言える。また、短歌を自動生成する試みが、どれも、短歌「らしさ」の再現を目指していたからだとも言える。もちろん、不変の「らしさ」などといったものは存在しない。だから、「らしさ」を求める試みは、多かれ少なかれ、個々人が信じたい「それ」のそれ「らしさ」を明らかにし、際立たせることに与する。だとすれば、言語操作技術の新しいあり方を考えるときには、ありふれたディストピア論でも、ずさんなユートピア論でもなく、これらの試みが目指した「らしさ」を吟味すべきなのだろう。この視点で、専門誌で話題に挙がった開発事例を、改めて概観しておく。

 たとえば星野しずるは、20種類の構文と、230の名詞部、150の修飾部、150の述部から、短歌を構成しうる語句をランダムに選定し、文法的に破綻しない語順に並び替えるという「ものすごく単純なシステムで動いている」(出典)。530の品詞部を作るに当たって、あらかじめ作者が口語短歌らしさのある語句を考案して投入しているから、作者が「自慢」と語るように、ごく簡潔なスクリプトで、いかにも短歌「らしい」と感じさせる文章を、安定して生み出せるような仕組みになっている。

 偶然短歌は、WikipediaのダンプデータからXML構文を取り除き、きれいな.txtファイルを生成する処理を(Rubyで動作するツールwp2txtを用いて)行い、約物や余白を削除したあと、Mecab(2009年初版)で形態素解析を施し、(拗音のモーラなども考慮したうえで)音数が5・7・5・7・7となる文字列を抽出する。さらに、抽出された文字列が「助動詞や非自立語は1語目に来ない」といったいくつかの規則に違反しないか判定して、それに合格した文字列を出力する。元データに含まれる、現に明白に短歌として作られた文字列が検出されてしまうから、作者が目視でそれを除外したという経緯からも分かるように、作者の関心は、散文の連続から、意図せず音韻が発見され、短歌「らしく」読めてしまうという、「日本語話者の言語感覚に内在するバグ」を「遊び」にすることに向けられている。

「機械学習で石川啄木を蘇らせる」は、「技術を使って愛を語る」ために、石川啄木の未完作である「大跨に縁側を歩けば」の復元を試みる。おそらく作者自身の短歌経験から、短歌「らしさ」がどのような規則の組み合わせで成り立つかを見極め、その規則群を文書生成アルゴリズムとして実装している。
 作者は『一握の砂』(551首)と『悲しき玩具』(194首)を学習データとし、形態素解析に近代文語辞書UniDic(国立国語学研究所)を用いて、マルコフ連鎖で啄木「らしさ」のあるテキスト群を大量生成。そこから「意味の通る文節を持った短歌」と見なせる、約1万首の遺作候補を抽出した。さらに、啄木「らしさ」を特徴量として表現するために、約15万語を1044カテゴリに分類した類義語辞典をもとに、元データに用例のない(未知語である)「大跨」「縁側」に、意味が近い語を高評価できるようにした。また、元データを撹拌し、ランダムに単語を選んで、著者「らしくない」ダミーデータを作成した。そうして、「らしさ」と「らしくなさ」の両方を、ナイーブベイズによる分類器の性能評価に用いて、1万首を「徹底的に機械的に」採点した。
 その結果、もっとも優れた短歌が1首だけ選ばれた。それを作者は、自然主義というより耽美主義の歌風で、下句の意味が取りづらいけれど、縁語の選定はうまいと評価する。「胸を張って提出するには少し苦しい」けれど、「人為的な介入なく、完全な自動生成によって推定された短歌であることを考慮すると、そこまで悪くない」という。驚くべきは、啄木「らしさ」の具体化を目指すなかで、短歌「らしさ」を自動採点する手法を確立したことだろう。

「恋するAI歌人」は、冒頭5文字を入力すると、その文字列との距離から判断して、学習データをもとに57577の構文を生成する。元データが100年以上前の日本語であること、句ごとの文章生成を目的としたこと、またアノテーションの判断指針もあってか、句またがりや破調をあまり許容しない歌群が生成される。文字列を時系列として扱うLSTMを採用したことで、即興により近い条件下で、短歌「らしい」文章の生成を試みたところに特色がある。中間層の処理は営業秘密として開示されないだろうが、質問応答サイトのテキストを、文語まじりの文書生成に援用するというミスマッチが、結果の生成にどれほど影響したか明らかになれば、20世紀にかけて数回起きた言文一致の潮流が、私たちが日常的に用いる日本語に、どういった変化を与えてきたかを理解する手がかりになるかもしれない。

 このように見ていくと、それぞれの先行例が思い描く「らしさ」には、それなりのばらつきと、かなりの見覚えがあると分かる。それぞれ、抒情の連結(星野しずる)、音数律の準拠(偶然短歌)、特徴量の抽出(啄木の未完作の推測)、文構造の流暢さ(恋するAI歌人)に着目している。手短に問いなおすと、1.個性、2.定型性、3.独自性、4.作為性が問題にされている。私たちの分析も、この4観点で整理できそうだ。



この記事が気に入ったらサポートをしてみませんか?