見出し画像

計量テキスト分析と文学研究

画像はデイヴィット・クローネンバーグ監督『裸のランチ』より。タイプライター「クラーク・ノヴァ」

概要

従来の文学研究の問題点をテキストと作者の関係から浮かび上がらせ、計量テキスト分析による問題解決を提唱する。また、計量テキスト分析がもたらす新しい文学研究の可能性を模索する。その際、計量テキスト分析の作品解釈への応用だけでなく、これらの技術の根幹にあるテキスト観を探り、それを文学研究に当てはめることで洞察を得ることを試みる。


1. 計量テキスト分析技術⼩史

1.1. 計量テキスト分析

ヒトが日常的に発話したり書いたりする言語は自然言語と呼ばれる。自然言語は、コンピュータ言語や形式言語とは異なり曖昧さや意味の重複があるため、解釈が一意でなく厳密さに欠ける場合もある。

自然言語、もしくは自然言語で記述・発話された情報を実用的に処理する情報科学の一分野として誕生したものが、自然言語処理であり、そのうち自然言語で書かれたテキストを対象とした技術や研究をここでは計量テキスト分析と呼ぶ。計量テキスト分析と同様の技術分野がテキストマイニングと呼ばれることがあり、この場合はテキストの処理による有用な情報の抽出に重点が置かれていることが多い。 [奥野, グラム , 萩原 2016] また、テキストアナリティクスと呼ばれることもあるが後者にはテキストデータから情報を抽出する総合的なアプローチの総称として用いられる可能性があるため、本レポートでは計量テキスト分析という名称をテキストに対するアプローチのうち数量的、統計的手法を用いるものを指すものに限定して用いることにする。


1.2. 歴史

テキストに対する計量・統計的アプローチの嚆矢とれているのは、19世紀の終わりにメンデンホール(T. C. Mendenhall) が行なった「シェイクスピア=ベーコン説」の解明のための研究である。この研究でメンデンホールは、文献に出現する単語の長さの分布は、書き手が同じならば同じような形状になり、書き手が異なれば異なる形状になることの実例を示した。 [村上 2020]

20世紀にはコンピュータの誕生による機械翻訳システムへの期待と需要から、言語の複雑性を機械的に捉える試みが行われ始め、言語の数理モデルの開発、基礎解析が行われるようになった。20世紀の後半にさしかかると、ウェブの発展にともなう言語データの増大とコンピュータの記憶容量や性能の飛躍的な向上、確率・統計論や機会学習などの統計的手法の整備によって言語現象を直接データとして統計的に処理するアプローチが可能になった。 [奥野, グラム , 萩原 2016]


1.3. 現在

近年ビジネスの分野において盛んに用いられる「見える化」という用語がある。この言葉は、一般的に、問題や状況を組織内で共有し管理するために視覚的な情報に変換する手法や取り組みを指す。計量テキスト分析は近年、「見える化」する手法としての需要が高まっているようである。顧客のアンケートや自社に関するS N Sの投稿、問い合わせログなどを計量テキスト分析することで構造化されていない顧客の要求や自社の評価などから有用な情報を抽出・「見える化」し、マーケッティング戦略や商品・サービス企画、リスク管理を効率的に行うことがビジネスにおいて計量テキスト分析に期待されている。 [株式会社プラスアルファ・コンサルティング 日付不明]

また、社会学や社会調査においても計量テキスト分析は用いられている。2019年末から2020年にかけて新型コロナウィルス流行時には、感染症の感染拡大に伴う不安やストレスの実態をX(旧Twitter)上の投稿から把握する試みが計量テキスト分析を用いて行われた。 [四方田 2020]


2. 技術概略

2.1. 知識獲得

言語は、そのままの状態ではコンピュータにとって単なる文字列でしかない。これらの文字列をコンピュータにとって有益な知識の状態にすることは、知識獲得と呼ばれる。知識獲得を行う上では、単語や語彙の知識が必要とされる。語彙の知識で特に重要な知識は、語彙と語彙との関係に関する知識であり、語彙と語彙との関係には、異表記、意味カテゴリ関係、同義語、部分全体関係、属性関係などの種類がある。 

こうした語彙の関係に関する知識は、単語のクラスタリングや語彙統合パターンなどの方法を用いることで、コンピュータを用いて自動的に獲得することが可能である。単語のクラスタリングは、語彙の登場する文脈に着目することで語彙の類似性を推測する手法であり、意味の類似している語は、使われる文脈も類似しているとする分布仮説に基づく考え方を採用している。語彙統語パターンは、単語間の意味を示唆する表現からそれぞれの語彙の関係を導く手法である。 [奥野, グラム , 萩原 2016]


2.2. 形態素解析

コンピュータは、テキストを扱う際、言語を構成する最小単位である単語を1つの単位として扱うことで内容を正確に捉え意味のある情報を得やすくなる。そのため計量テキスト分析では、与えられたテキストを単語に分割する前処理が必要になる。日本語テキストは、英語テキストなど単語と単語の間がスペースで区切られたテキストと異なり、通常、単語間にスペースを挿入しないため形態素解析と呼ばれる大きな処理の一部として単語分割の処理を行う。形態素解析では、単語分割に加え、文中の単語の品詞を分類する品詞付与などの処理を行う。品詞付与もまた計量テキスト分析において重要な手順であり、品詞の情報を使うことで単語分割処理の精度が高められる。品詞付与には、単語区切りの情報が必要であるという都合上、2つの処理は、日本語の形態素分析において同時に行われる。[奥野, グラム , 萩原 2016]


2.3. 構造解釈

コンピュータに文の構造を正しく解析させ、正確な処理を可能にするために必要な技術が構造解析の技術であり、係り受け解析や句構造解析などの技術が代表的な技術として挙げられる。係り受け解析は、係り受け構造という文中の単語の相互の関係に着目した文の構造表現方法を分に自動的に付与する技術である。

係り受け解析には、左から右へ解析を進めていく手法と文中の単語の組に係り受け関係がある確率を求め文全体の係り受けを同時に解析する手法がある。

句構造解析では、単語の間の関係に着目した係り受け解析に対して単語列からなる句に着目して文の構造解析を行う。句構造解析は、英文解析において広く利用されており、日本語のような語順が比較的自由な言語では係り受け解析を利用する方が自然とされている。 [奥野, グラム , 萩原 2016]


3. 人文学での応用

3.1. 計量文体学

計量文体学は、テキストのスタイルを数値的に分析する手法である。ここでタスクとされているのは、著者帰属、著者検出、著者プロファイリング、スタイル変更の検出などである。文章のいかなる点に文章表現上の特色が現れるかは、書き手によって異なり、その追求のため記号論、音韻論、語彙論、品詞論、構文論、修辞論などさまざまな理論が参照され、探究されている。文章から書き手の特徴と思われる要素を取り出したデータを書き手の文体特徴量とよび、単語の長さや単語の使用頻度、品詞の使用頻度、音韻特徴などさまざまな側面から数値化される。収集されたデータは、19世紀後半から20世紀前半までは、平均値や最頻値、四分範囲などの基本統計を用いて分析されていた。20世紀中頃から現代に開けては、推測統計の手法が用いられるようになった。 [金 , 中村 2021]


3.2. 著者帰属・著者プロファイリング

計量文体学の手法によって、言語の推移や文化的な変遷を考慮して、文学作品の背後に潜む著者や時代の影響を詳細に理解することができる。ある著作物が、どの候補者のものかを確認・検討するタスクは、著者帰属・著者検証と呼ばれ、先行研究としては、1.2. 歴史 で述べたメンデンホールによるシェイクスピア作品の検討がある。著者プロファイリングは、テキストの情報を用いて、著作物の書き手の性別、年齢、出身地、学歴などを推定するタスクである。このタスクは、現在、科学捜査やインターネット上のセキュリティー問題、法科学なども関わり、注目を集めている。 [金 , 中村 2021]


3.3. 作品解釈

文学作品から抽出された、単語の頻度や共起関係、文法構造などの要素を分析することで、作者の意図や作品のテーマ性について論じられた先行研究に客観的な根拠を付与することが可能である。例えば、中村靖子は、リルケの小説『マルテの手記』を計量テキスト分析の手法を用いて考察している。中村は、『マルテの手記』の前半と後半の頻出語の比較により、語りの人称が変化することを客観的に示し、これまで論じられてきた主題の変化に関する解釈に分析結果が沿うことを示した。ここでは、ワードクラウドと呼ばれるテキストの語彙を形態素解析後、出現頻度を視覚的に表す技術が用いられている。また、トピックごとにまとめられる単語の推移を変数として観測する、構造的トピックモデルと呼ばれるアプローチによって主題の変遷を客観的に示し、主人公の課題解決の過程と認知的変容を構造的に浮かび上がらせている。 [中村 2021] 

このように、計量テキスト分析の手法を用いた作品解釈は、まだ事例が少なく発展途上であるが、伝統的な文献研究にとって相互に示唆的であり、新たな視点を研究に提供するものとなっていると言えるだろう。


4. 文学研究

4.1. 文学研究の問題点

従来の文学研究には、作品解釈が研究者の主観に大きく依存するという問題点があった。その結果、一部の先行研究が権威となり、それらを踏まえた上でなければ、新たな視点からの研究が認められない場合や作品の解釈・読み方を最初から制限してしまう場合があった。

また、作品内の特定の語や登場人物、場面をアレゴリーや象徴として解釈することがあるがこれらは、研究者ではない一般の読者には、理解が難しかったり、根拠の乏しい言説に感じられたりし、社会から、研究の再現性や社会的価値に疑念が抱かれる場合もありうる。

しかし、文学研究には、作品が書かれた時代、作者が生きた世界の背景や精神性、そこで提示されている問題や規範、可能性を読み解くことで、間接的に現代がどのような時代であり、私たちは、どのような世界に生きているのかを浮き彫りにし、この先の世界での道標を見つけるという実用的な役割もあるはずである。

であるならば、先述の問題点は、この分野にとってもそれを疑問視する社会にとっても不利益であり、研究としての価値をより客観的に示すことが求められる。3.1 3.2 3.3項で述べた計量テキスト分析の人文学への応用は、客観性の強化によってこの問題解決に役立つことが期待される。


4.2. 新しいテキスト観

文学研究の問題克服のためには、研究の際の客観性の強化だけでなく、従来のテキスト観に加え新しいテキスト観を提唱する必要があると考えられる。

一般的にテキストは、作者という主体がそのすべてを支配していると考えられている。こうした認識は、文学研究において作者の神格化を引き起こし、最も正確に作者の意図を汲み取った研究が絶対的に正しいという硬直が生じうる。

だが、作者でさえもなぜそのような語彙を選んだのか、登場人物にその行動を取らせたのかが明確にわからないことがある。フランスの哲学者、ロラン・バルトは、『作者の死』でテキストを現在と過去の文化からの引用からなる「織物」と表現し、テクスト解釈における作者の優位性を否定している。 [吉川 1992] また、中村靖子は、『リルケでテキストマイニング!』4.5まとめ で、テキストの言葉の発生源に、主体でさえも無自覚な脳内の内的予測モデルの存在を仮定している。 [中村 2021]

こうした、先行研究から、テキストを作者の意図から切り離し、新らたに作者や時代、文化などその背景にある「無意識」と呼ばれるような、書くという行為が行われる際に無自覚な領域が表出した現象として捉え直す試みが可能ではないかと考えられる。


4.3.  今後の可能性

テキストの解釈とその根拠となるデータの相関に方法論が確立され、計量テキスト分析技術がより人文化科学にとって一般的なものになれば、これまで行われてきたテキストの解釈や作者像、文学論を客観的に検証し強化・修正することが可能になるだろう。また、先述のような、テキスト観に基づく研究では、テキストをデータの集合として捉える自然言語処理が大きく貢献しうる。今後、機械学習や深層学習の応用が進むことで、より複雑で多様な現象としてテキストに迫ることが可能になるだろうと考えられる。

文学研究におけるテキストの捉え方の転換は、今後、計量テキスト分析やその他の自然言語に関わるA I技術との相互的な影響下でさらに加速するのではないだろうか。計量テキスト分析に用いられる技術の根幹をなす考え方と従来の文学研究の根幹にある考え方は、自然言語への向き合い方に大きな違いがある。両者の接近は、こうした異なる態度の双方の流れをくむ、新しい研究の地平の拡大を予感させる。


5. まとめ

計量テキスト分析は、自然言語処理の分野で、言語を数量的・統計的に捉える手法を提供する。技術的側面では、知識獲得、形態素解析、構造解釈が重要であり、これらの手法は計量テキスト分析の基盤を築いている。起源を19世紀末の基本統計を用いた著者帰属の探求に求めることがでるが、20世紀以降は、コンピュータの進化によって飛躍的に発展し現代に至る。現在、ビジネスや社会学の分野で広く利用され、非構造化データを分析し情報を抽出する手法として注目を集めている。また、人文学への応用が様々な角度から模索されており、計量文体学や著者帰属、作品解釈に用いた先行研究があり、より強力な客観性をもたらす可能性がある。

文学研究のさらなる発展には、従来のテキスト観の更新が求められており、その1つに作者とテキストと切り離し、現象としてのテキストを捉えようとするものがある。こうした、新たなテキスト像への相補的な影響と貢献も計量テキスト分析に期待できる。技術の進化や新たな手法の導入、計量テキスト分析が人文化科学において一般的になることで、従来の解釈や論への客観的な検証・修正の可能性も期待される。


参考資料

奥野陽, グラムニュービッグ, , 萩原正人. 2016. 自然言語処理の基本と技術. 翔泳社.

株式会社プラスアルファ・コンサルティング. 日付不明. 見える化エンジン. アクセス日: 2023年12月30日. https://www.mieruka-engine.com.

吉川登. 1992. ロラン・バルトのテクスト論理について. 熊本大学教育学部紀要.

金明哲, , 中村靖子, . 2021. 文学と言語コーパスのマイニング. 岩波書店.

四方田健二. 2020. 新型コロナウイルス感染拡大に伴う不安やストレスの実態: Twitter 投稿内容の計量テキスト分析から. 研究資料, 体育学研究.

村上征勝. 2020. この本を書いたのは誰だ? 統計で探る”文章の指紋”. 勉誠出版.

中村靖子. 2021. “リルケでテキストマイニング!” 著: テキストアナリティクス7 文学と言語コーパスのマイニング, 編集: 金明哲 , 中村靖子. 岩波書店.


この記事が気に入ったらサポートをしてみませんか?