見出し画像

お届けInfo 「共起を考慮した主成分回帰分析による推理小説の犯人推定」

スクリーンショット 2021-03-20 1.03.51

お届けするのは、2021年3月19日に行われた学生セッション-自然言語処理(4)会場の「共起を考慮した主成分回帰分析による推理小説の犯人推定」です。発表者は勝島修平さん(東京都市大)、共著者は穴田一さん(東京都市大)です。

今回は素人でも分かる「素人目線タイプ」の記事です。

スクリーンショット 2021-03-20 1.03.28

ヘレンを殺したのは誰だ!?

この研究では、機械学習によってコナン・ドイル作、シャーロック・ホームズシリーズの有名作品『まだらの紐』の犯人推定を試みます!

※この記事では犯人のネタバレはありません。

『まだらの紐』のあらすじ:
ホームズはある日、ヘレン・ストーナーから調査の依頼を受ける。ヘレンと双子の姉妹であるジュリア・ストーナーは、結婚する予定日の2週間前に密室状態の自室で「まだらの紐」という言葉を残して、謎の死を遂げていた。その後、結婚が決まったヘレンの周辺でも奇妙な出来事が起こり始める。危険を察知したヘレンに依頼されたホームズとワトソンは、ヘレンを殺害しようとする犯人を追い詰める…!

使用する学習データは、
①『まだらの紐』の犯人が判明する前までのテキストデータ
② ホームズシリーズの別作品『悪魔の足』の全テキストデータ
です。


研究の背景:
機械学習における解釈可能性に関する問題

深層学習という手法では、大量のデータを使って精度の高い推定結果を得ることができます。しかし、なぜその結果が導かれたのか、専門家でもその理由が説明できないため、この問題は「解釈可能性の問題」と言われています。

画像1

発表者の勝島さんは結果が導かれる理由も説明できるような、「解釈可能性の問題」を考慮した自然言語処理を目指しています。

自然言語処理で小説のようなテキストデータを扱う際、「ナレッジグラフ」という手法を用います。ナレッジグラフは、小説で出てくる文章順にID番号を付与し、文章をSVO(主語・述語・目的語)形式に整理したものをつなげたグラフ形式のデータ構造です。

画像6


勝島さんの提案手法と従来手法

1.勝島さんの提案手法:

画像10

『まだらの紐』の文章において頻出する単語を明らかにします。まず「CBoW(Continuous Bag-of-Word)という自然言語処理に定番のモデル構造を用いてデータを表現します。そこから場面ごとの単語の共起情報に着目した学習を行うために、①『まだらの紐』の犯人が判明する前までのテキストデータ、② ホームズシリーズの別作品『悪魔の足』の全テキストデータを用い、共起単語の確率分布を生成します。

次に『まだらの紐』における単語の分散の度合いを明らかにします。まず『まだらの紐』の文章を「数量化三類」(カテゴリーデータ(質的変数)に対する主成分分析)で情報縮約を行います。入力データにはマルチホットベクトル化(頻出単語の変数化処理)した『まだらの紐』のテキストデータを使用します。これを合成変数(第一主成分、第二主成分…)としてまとめます。主成分には単語の因子負荷量という値が含まれる。

さらに「CBoWで得られた確率分布から目的変数(重要単語のスコア)を算出し、「数量化三類」で得られた主成分と合わせて「回帰分析」を行います。つまり主成分の目的成分への回帰式を算出(主成分抽出)します。

それによって得られた「偏回帰係数」の高かった主成分の因子負荷量を見ることで、「解釈」を行います。「(?) kill Helen」における「?」に入る可能性の高い人物を推定します。


2.従来手法(黒川ら, TransEによる埋め込み手法):

ナレッジグラフのタグ付けされた情報を、SVO形式へ分解する方法です。ここで生成されたSVO形式のデータを「トリプル」と呼びます。このトリプルを用いて、単語の特徴ベクトルを生成します。主語、述語、目的語にそれぞれベクトルを割り当て、TransEというスコア関数によってトリプルの関係が成り立つように学習を行っていきます。

①『まだらの紐』の犯人が判明する前までのテキストデータ、② ホームズシリーズの別作品『悪魔の足』の全テキストデータを組み合わせ、「(?) kill Helen」における「?」に入る可能性の高い人物を推定します。

画像3


推定の結果は・・・

本当の犯人は2位に推定されました(従来手法と同じでした)。

画像7

従来手法では推定結果の理由が分かりませんでしたが、勝島さんの手法ではなぜその犯人を推定したのか(なぜ誤判定になったのか)を明らかにすることができました。

画像8

第113主成分の因子負荷量の上位20個を見ると、『まだらの紐』において使用される犯行手段を示す単語「●●」や「▲▲」が多く抽出されていました。事件の真相に近づいていたことが分かります。

しかし、これらの単語が誤判定されたBさんに関わる単語であったことから、これらが結びついてしまいました。つまり、犯行手段に関連の深かった別の登場人物が犯人であると誤判定してしまっていました。

(もしかしたら作者のコナン・ドイルさんは、途中までは「Bさん」を犯人に思わせようと思って文章を書いていたのかもしれませんね…!?)


今後も解釈性の高いAIの開発を目指す

今回は、データ上の共起の構造を見ることによって、誤判定の理由を明らかにできることが分かりました。

今後も学習に使用するデータを工夫したり、精度の高い学習モデルを模索したりすることによって、精度の高い推定を目指します。

画像9

この研究に興味が湧いた人は・・・

こちらもおすすめです。
▶ 情報処理学会 自然言語処理研究会 (NL)
▶ ナレッジグラフ推論チャレンジ
▶ 共起を考慮した単語の特徴ベクトルの主成分回帰分析による推理小説の犯人推定(人工知能学会)


お届けInfo 依頼者:
夏目和子様、匿名様の2名からの依頼。
お届けInfo利用理由として、次のコメントをいただいています。「新しい試みで楽しそうだったから」、「情報処理学会 全国大会では幅広い研究分野にわたって多くの発表があるので、直接聞くことができる発表はどうしても限られてしまいます。また、専門外・異分野・他業種の研究発表は十分に面白さを理解できないかもしれません。『お届けInfo』では普段聞かないような面白そうな発表の情報をデリバリー会員の方々の視点でまとめて記事にして届けていただけるということで、とても有益な試みだと思いました。」

お届けInfo デリバリー担当:
木塚あゆみ(大阪芸術大学)/素人目線(グラレコ)Ver. 

お届けInfo メタ担当:
大場みち子(公立はこだて未来大学)
小山清美(株式会社日立システムズ)


この記事が気に入ったらサポートをしてみませんか?