見出し画像

大学生活最後の1年間、こんな狭い世界で行ったり来たりしていた

先日、大学のすぐ並びにある〈進々堂 京大北門前〉の紹介をした。
卒業研究中、何度となく研究室の先輩に連れて行ってもらった店だ。

研究に行き詰まり頭がクシャクシャになった時も、まるで陽だまりのような〈進々堂〉の空気が解きほぐしてくれた。

当時住んでいた下宿、研究室、進々堂の位置関係はこんな感じだ。
ほぼ一直線上に3点が並んでいるとは、図に書いて初めて知った。

画像3

大学生活最後の1年間、こんな狭い世界で行ったり来たりしていたのだ。

***

その卒業研究についても以前記事にしたことがある。
人工知能の基礎研究で、文章の自動分割に挑んだ話。

この記事では軽い説明しかしなかったが、今日は少しだけ詳説を。
くなんくなんさんから解説のリクエストをいただいたのだ。

ではさっそく。

***

適量の本を1冊分、テキストデータとしてコンピュータに取り込み、章や節といった区切り、章の見出しなどをすべて削除する。
文のみが丸裸でずらりと並ぶ状態にするのだ。

画像4

続いて、文章中に偏って出てくる語を「重要語」として抜き出す。
なぜ偏って出る単語が重要なのか。
自分の書いた卒論によると、こういう理屈だ。

読者は出現頻度に大きな偏りがある語に出会った時、それまでの話題に代わって新しい話題が展開されることを知るであろうし、またその語があらわれなくなった時にも同様に話題の変化を感じとるであろう。

まぁ確かに。

ちなみに、単語の出現の偏りは次の式で求める。

画像1

なんのこっちゃ。

ざっくりいえば、ある要素がどの程度偏って出現しているかを示す式。
この値の大きい単語が重要語であり、この値が最大になるような区切り位置を探すのだ。

図で説明しよう。
この図は、ある重要単語A(青)は文章の前半に、B(赤)は中盤に、C(緑)は後半に集中して出てきている様子を表している。

画像2

この場合、二つの点線の位置を区切りとすれば、A・B・Cともに偏りが最大になりそうだと想像がつく。
でもコンピュータにはそんな予感はないから、まず適当に区切ってスタートし、その区切りを前後に動かしながら、全体の重要語が最大限に偏って現れるような位置を探すという力業をおこなった。

僕が取り組んだのは、簡単に言うとそんな研究だった。

日中プログラムを仕上げ、夜そのプログラムを走らせて帰り、翌朝結果を確認し、またプログラムを修正する日々だった。
当時のコンピュータの性能では、重要語を抜き出すのに一晩かかったのだ。
今ならものの数分で本の章分けができるかもしれない。

大学生活、前半3年間はほぼ大学には行かず、バイト三昧たまに旅、という暮らしだった。
が、この研究室に入りたくてこの大学を選んだから、最後の1年間は研究に打ち込み、満足の大学生活を終えた。

すべてを温かく包む、京都の懐かしい日々。

(2021/10/6記)

この記事が参加している募集

#この街がすき

43,871件

サポートなどいただけるとは思っていませんが、万一したくてたまらなくなった場合は遠慮なさらずぜひどうぞ!