自然言語処理 #1(放送大学講義メモ)

講義の概要

 我々は特別な訓練なしに母語を習得できるが、自然言語をコンピュータで扱う(自然言語処理)ためには、その使い方をコンピュータに教える必要がある。言葉の使い方は社会の慣習であり、言語構造や意味には曖昧性があることから、自然言語処理を実現することは難しかった。
 自然言語処理の研究は苦しむ時期が長く続いたが、インターネット上の大規模なテキストを活用することやニューラルネットワークの活用により、近年著しく発展している。

1 自然言語処理の概要と歴史

自然言語の特徴

  • ものごとへの名前の付け方は恣意的である。ものごとの切り出し方も言語によって異なる。

  • 語彙・用法は時代や分野によって変化する。

  • 音声言語も文字で書かれた文章も1次元の音や文字の並びである。しかし言語で伝えようとする意味内容は、物事の間の複雑な関係(ネットワーク構造)である。

  • 表現(語・句・文など)と意味との対応は多対多である。

人間はこうした特徴を持つ自然言語を柔軟に解釈できるが、コンピュータにとっては難しい処理である。

自然言語処理の歴史

黎明期(1940年代半ば〜1960年代半ば)
最初のコンピュータと言われるENIACが1946年に作られた。当時のコンピュータは軍事目的が主であったが、機械翻訳への関心も高まった。コンピュータの処理能力は不十分であったが、「人工知能」という用語やベクトル空間モデルという重要な概念が提唱された時期でもある。

忍耐期(1960年代半ば〜1990年頃)
研究が進むにつれて機械翻訳の困難さが明らかとなった。米国では機械翻訳にほとんど予算が降りない時期があった。米国以外の地域では様々な研究が続いた。

発展期(1990年頃〜)
 インターネットが世界的に普及し、社会基盤となっていった。大規模コーパスをはじめとする言語資源の充実と機械学習の利用によって自然言語処理は発展した。機械翻訳では対訳コーパスの方式が考えられ、2000年以降巨額の研究費が下りて大きな進展があった。

成熟期(2010年頃〜)
 自然言語処理においてニューラルネットワーク(生物の神経細胞の振る舞いをモデル化したもの)の利用が本格化し、一気に実用レベルに押し上げられた。



この記事が気に入ったらサポートをしてみませんか?