【人文情報学散歩(1)】文学研究の固有性とデジタル人文学の可能性 - 研究動向分析および謙虚な提案(Seohyon Jung、2023)

2023年9月14日 09:32

このポスティングは韓国のデジタル人文学関連論文を要約したものです。出所の原文は次のリンクから見ることができます。

https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002989098

研究目的

国内外のデジタル人文学の流れ概括、文学研究に分類できる研究の発達様相分析、変化する学術環境における文学研究の位置と固有性、デジタル文学研究の可能性を省察します

学問分野としてのデジタル人文学

「遠くから読む(distant reading)」と通称される量的研究方法論の破格的な登場です。確かに印象を刻印させたが、現在のデジタル人文学が大勢を変えたのかと聞かれたらそうではない。現在の状況は文学研究全般に自然に染み込んだものではなく、ごく少数の研究者が採択した特殊な研究方法論として扱われます。デジタル人文学の始まりは<デジタル人文学案内書(A Companion to Digital Humanities, Blackwell)>(2004)を胎動と呼ぶことができます。しかしデジタル人文学は学問領域の境界が曖昧で、主題別分科別に異なる様相を帯びて発展するため、その動向を線形的に把握することができません。「デジタル文学のでこぼことした進化過程を網羅する特徴なら、中心化するよりは分化/周辺化し、統一したり集中するよりは多様化して拡張する傾向が挙げられる」(136)アラン·リウ(Alan Liu)は学界に混乱をもたらすように見えるデジタル人文学を理解する唯一の方法は「デジタル人文学やそれがそれではなく人文学自体の学際的アイデンティティが根本的な問題であることを認知すること」と指摘します。学者個人の知的権威や特権を持つ機関中心に構築されていた人文学的知識の構造を脅かすのは情報技術ではなく、その構造自体の閉鎖的で時代錯誤的な特徴です。デジタル人文学は人文学的知識が遂行しなければならない批判的役割をきちんと果たし、既存学界の限界を克服できるように助ける未来の方向の一つとして注目されているのです。(*136) [激しく共感します。]

データとしての文学

デジタル文学研究の事例:自然言語処理(natural language processing)ベースのテキストマイニング、トピックモデリング、ネットワーク分析が活用されます。

(1) 大量の小説テキストに対するテキストマイニングを通じて小説史的洞察を引き出した量的研究で、マシュー·ジョーカー(Matthew Jockers)の<マクロ分析>(Macroanalysis, 2013)。書誌情報基盤の統計分析、ジャンル別トピックモデリング、作品別中心語に対する時系列視覚化を通じて英国小説が扱ってきたテーマの歴史的変化様相を新たに発見することができます。

(2) 最近は計量的研究限界を克服するために分析結果に批判的な読み合わせを結合し、再び複合的で人文学的解釈を可能にするデジタル文学研究が登場しました。 <遠い地平線:デジタル根拠と文学的変化(Distant Horizons:Ditgital Evidence and Literary Change, 2019)>文学テキスト敷石ツール開発過程で機械学習導入、人工知能技術の商用化および大衆化に支えられ急速に発展するものと予想され、これに対する理解を持った人文学研究者の分析が加わればデジタル文学研究はより繊細な研究方法論として位置づけられるものと期待されます。

(3) 最近の研究傾向として、巨大言語モデル(LLM)ベースの人工知能文学研究が進行中です。一例としてアンダーウッドは今年初め、GPT-4モデルを活用して一冊の小説の中で平均的に時間がどれだけ流れるかを研究中。先端科学技術を直接適用する文学研究を設計するのに人文学的研究質問をどのようにすれば巨大言語モデルが理解できる形で作って提示できるのか、すなわち「どうやって私たちとは違う知的構造を持った存在と疎通するのか」に対する人文学的な悩みがこの研究の中心にある。 [激しく共感します] 彼の企画と研究はデジタル技術と人文学研究の間隙を狭めていく人文学的融合の実践といえます。

(4) 良質の研究データ構築作業が必要です。韓国では古典学を含む人文情報学関連論文と韓国語学関連論文の比重が圧倒的に高いです。デジタル歴史学の方法論を活用した韓国史研究が存在するものの、歴史研究部門でもデジタル方法論を活用することが主な方法とは言い難い。

デジタル文学研究の発展のための謙虚な提案

デジタル文学の研究が難しい欠的な理由は、決してコーディング能力の欠如ではありません。文学という特殊なデータを扱うために開発されたツールがないことは、その開発の難しさです。その例として、単語埋め込みモデル、主成分分析関数、感情分析パッケージです。ツールの性格および目的とデータの性格がよく合わない場合、有効で説得力のある分析結果を導き出すことが難しいです。ゲッピー(Gephy)、ネットマイナー(NetMiner)などのネットワーク分析ツールは、文学作品の中の叙事情報(人物間の相互作用と場所との関係)を一種の表形式で作らなければ適切に適用することが難しいです。

研究共同体として、より良いデジタル文学研究のために必要なものですか？

(1) デジタル文学研究に適した評価基準を一緒に考えることです。デジタル文学研究に対する伝統的領域での不信感です。データの性格によっては、研究方法論や分析ツールの選択から研究有効性が認められない可能性も甘受しなければなりません。

(2) データ前処理段階ごとに研究者の解釈と恣意的決定が必須であるため、デジタル人文学研究者はそのすべてを緻密に説明し、読者と共に有効な解釈を作っていく能動的研究者でなければなりません。そのため、デジタルツールの活用が研究の多くを機械に依存したり、自動化したりすることだという幻想から脱する必要があります。どのような技術を活用するかを決定すること、様々な次元の分析です。

(3) 良質の構造化されたデータ、信頼できる方法で前処理された共有データが必須です。人文学術データの生産に関心を持つことです。前処理作業は非常に多くの時間と労力を費やす必要があります。その加工過程の結果が透明に公開された場合、より多くの後続研究を触発する可能性があります。データが共有されずデータ収集と加工に研究者の時間が浪費され、この過程で大学院生の労働があまりにもよく搾取されます。「日本歴史情報学の教科書」という本でも似たような指摘をしています。データ自体を紹介するデータ共有と解除論文がこのような脈絡だと言えます。]

共同研究の奨励はもちろん、共同研究に対する評価方式の柔軟化など制度的変化が同時に行われなければなりません。当面は国内外で行われる大規模な共同研究に個別研究者が積極的に参加するのが一つの突破口かもしれませんが、そのような個別的解決策が脱中心化および共有を基本とするデジタル人文学の価値と最もよく合う突破口ではありません。隣接学問分野、デジタル技術の可能性と限界を一緒に議論できる情報科学や電算学分野の研究者が新たに集まって大規模な文学データ研究を設計し、試行錯誤を経て有意義な分析結果が得られるまで研究に没頭できる研究環境と、そのように生産された多様な形態の人文学的知識を意味ある学術研究の結果として受け入れる研究文化が切実です。

すべての文学研究がデジタル人文学研究である必要もなく、文章にもなりません。情報科学技術の発達が文学研究の根幹を脅かすと感じる理由もありません。デジタル人文学に懐疑的な研究者でも、デジタル方法論を活用した文学研究論文を伝統的文学分析論文より特に冷淡だったり無条件批判的態度で接する必要はないという程度の合意さえできれば省察的批評が可能になるでしょう。

感想

人文学研究者から開発者に業を変えてからすでに2年が過ぎている。その間GPTが広く広がり、開発環境も変わり、私の頭の中の優先順位も変わりました。偶然にも良い機会にデジタル人文学関連コミュニティに加入して知った論文ですが、現在デジタル人文学学界の最前線でどんな悩みがなされているのかを知る良い機会でした。

私は何からすればいいでしょうか。まずこのような悩みの地形を念頭に置きながら、共有して使用できる史料データを一次的に用意し、基本的なデータ分析の事例を示すものです。簡単に配布までできるならアクセスが圧倒的に良くなるので、もっと考慮してみます。現在、日本の学会でこのような技術を活用した研究結果を実験的に見せながら、韓国的状況と日本の状況をバランスよく紹介できればと思います。

幸い、開発者として2年間暮らしたので、デジタル人文学で人文学研究者たちが不慣れな情報学的概念と開発ツール言語に対してはあまり拒否感がありませんでした。このように新しい可能性が開かれる日が来るんだと思います。

この記事が気に入ったらサポートをしてみませんか？