見出し画像

もしかすると少しくらいは…と思うと、事の重大さに軽く武者震い

重要語のχ²分布を用いた文章の自動分割

小難しいが、これは大学で書いた卒業論文の題目だ。

30年近く前、工学部の電気工学第2学科を出た。
電気工学科、電子工学科が発電や送電、半導体などいわゆる電気そのものを扱うのに対し、電気工学第2学科はそれ以外の新ジャンルを扱った。
だから僕は電気系を出ているのに、トランジスタの原理すら分からない。

4回生になって選んだ研究室は、人工知能を研究する長尾研究室だった。
そこでは主に、人間の言語を機械に認識させる研究を文学部と共同で行っていて、長尾先生は工学部では異端児だったが、その道の世界的な権威でもあったから、今あるAIの基礎は長尾研で生まれたといって過言でない。

数あるテーマから、文章を自動分割する研究を卒業研究に選んだ。
長い文章をコンピューターが章や節に分けられないかな、分けてくれたらいいな、という研究だ。
この技術を確立させて、論文から論旨を自動抽出したり、図書館コードによる書籍分類を全自動化することを目指した。

その卒論に書いた序論から、一部を抜粋する。

序論
一般に文章は単語や文の単純な集まりではなく、章や節、段落などという一定のまとまりからなっている。これらの中には単なる形式的なものもあるが、その文章の持つ意味的な区切りによってまとまりを形成することが多い。したがってこれらのまとまりの情報を的確にとらえることができれば、その文章における論旨の展開の把握やキーワードの抽出が容易になる。
(中略)
そこで本研究では、文章の各部分における重要語を抽出し、その分布の偏りが大きくなるような分割方法について研究を行なう。論旨の展開によって重要語は偏って出現する傾向があり、その情報を用いて文章を分割する。また、重要語の抽出、重要語の偏りの評価という本研究の核心部分には、いずれもχ²分布による検定という普遍的な統計法を用いる。本研究の手法を用いると、従来の方法にあった欠点を補うことができる。すなわち、語の偏りの情報を用いるため大域的な評価が行なえ、分割の指標として意味ネットワークやシソーラスを使わないためそれらに依存するおそれがない。
(後略)

たとえば「野球」という語が頻出していたのに、急に「牛肉」に置き換わったら、そこで話題が変わったと判断するのだ。
実際にはそんな分かりやすい文章はまずないので、研究では苦労したが。

その後、僕は研究の道に進まず、より実践的に文章に触れたくて編集者の道を歩んだ。
ここで段落区切るのおかしくない? この章は入れ替えた方が意味通るでしょ、と分かった顔で著者にアドバイス。

自分の研究が、今あるAIに役立ったかは知る由もない。
が、もしかすると少しくらいは…と思うと、事の重大さに軽く武者震い。

(2021/9/14記)

この記事が参加している募集

サポートなどいただけるとは思っていませんが、万一したくてたまらなくなった場合は遠慮なさらずぜひどうぞ!