見出し画像

誰でもわかる!「自然言語処理」とは

こんにちは。言語理解研究所(以下、ILU)の開発本部 本社開発部です。

私たちが日常的に使っているパソコンやスマートフォン、検索エンジンや翻訳ツール。これらすべてに、人が使う言葉をコンピュータ上で処理する、「自然言語処理」という高度な技術が利用されています。
では「自然言語処理」とはどんな技術でしょうか?

今回のTech記事では、「自然言語処理」を専門とする会社であるILUが、あえて専門用語を使わず、分かりやすく解説しています。
「自然言語処理」について勉強したいけど、まずは簡単にどんなものか知っておきたい。そんな初心者の方、必見の記事です。



2022年11月に登場した、OpenAIの対話型生成AIサービス「ChatGPT」は、入力した質問に対し、あたかも人と対話しているかのような自然な回答を返して世界中を驚かせました。

(注)上記は2024年8月14日にChatGPT(GPT-4o)を使って得た回答です。

ではこの会話はどのように成り立っているのでしょうか。

「自然言語処理」とは?

人が読み書きしたり話したりするために日常的に使っている言葉を、「自然言語」といいます。日本語や英語、中国語も自然言語です。
この自然言語をコンピュータが理解するための処理を、「自然言語処理」といいます。
「自然言語処理」のおかげで、今では機械とも自然な対話ができるようになったのです。

コンピュータが人の言葉を理解する?「自然言語処理」の仕組み

たとえば私たち人間の場合、「私は宝くじに当たりました」という文を読んだとき、特に意識しなくても、この文が何を伝えているのか、主語は何か、誰がどうしたのかを、自然と読み解いています。
それは、子どもの頃から何度も聞いたり、使ったりすることで、自然と意味や使い方を身に付けているからです。
コンピュータも同じです。文を理解するためには、私たち人間と同じように、知識を身に付ける必要があります。
では、どのように知識を身に付けるのでしょうか。
 
実は、自然言語処理にはいくつか種類があり、種類によって知識の獲得方法が異なります。冒頭にあげた「ChatGPT」などの対話型生成AIは、大規模言語モデル(LLM)を用いて、人間との対話を実現しています。
一方、ILUでは従来からのルールベースを元にした自然言語処理を行っています。
どちらが優れているというわけでなく、それぞれに一長一短があります。

1.大規模言語モデル(LLM)

大規模言語モデル(LLM)とは、ディープラーニング(深層学習)と呼ばれる機械学習の一種です。機械学習では、大量のデータを読み込んだコンピュータが、そこから自動で知識を蓄えます。自動で学習するため、短時間で膨大な知識を獲得することができます。
 
ただ、自動で知識を蓄えるので、間違いや、人によっては暴力的、差別的に感じる表現も含まれます。生成AIの回答に、ハルシネーションが含まれたり、同じ質問内容を繰り返し尋ねると回答が異なったりするのはこのためです。

以下は、水族館好きの筆者がChatGPT(GPT-4o)にした質問です。

(注)上記は2024年8月14日にChatGPT(GPT-4o)を使って得た回答です。

一見、正しい回答に見えます。しかし四国水族館の開業は2020年で、2023年ではありません。これが「ハルシネーション」、生成AIが作り出すもっともらしい嘘です。
人間なら気づく嘘の情報を、間違いと気づかず提供する。
正しい知識かどうかの判断と、間違った知識の修正が難しい。
これが、機械的な学習を行う大規模言語モデル(LLM)のいまの問題点です。

2.ルールベースの自然言語処理

人間があらかじめ定めたルールに基づいて自然言語処理を行うことを、ルールベースの自然言語処理といいます。
では、このルールはどのようなものでしょうか?

中学生のときに受けた国語の授業を思い出してください。
単語や文節の区切り方や、どの順番で文節を並べると理解しやすい文になるのかなどを習った「国文法」という授業がありました。
普段何気なく使っている日本語の品詞はこれとか、活用する・しない、連体修飾形になる・ならないとか。苦労して文法や規則をおぼえた方もいらっしゃると思います。
 
実はこの「文法」こそ、ルールベースの自然言語処理において、コンピュータが文を理解するために必要な基礎的な知識です。
単語や文節をどこで区切るか、修飾関係はあるかなどを知識として与えることで、文の構造を理解できるようになります。

「私は宝くじに当たりました」という文を例に考えてみましょう。
私たちが文を読むとき、特に意識しなくても、この文が何を伝えているのか、主語は何か、誰がどうしたのかを、自然と読み解いています。
コンピュータも、この過程をひとつひとつ手順化して処理することで、文を理解します。

<コンピュータが文を理解する手順>
1.文法ルールを使って、文を意味の通じる最小単位である「単語」まで分けます。
2.単語の品詞を手がかりに、文の要素(主語・述語・目的語など)を特定します。
3.文の要素の組み合わせから、文の意味を理解します。

<コンピュータが文を理解する手順>

実際の手順はもっと複雑ですし、正確に文を理解するためには、文法ルールの他にたくさんの単語と文の要素の組み合わせが必要です。
知識をコンピュータに与える前に人間が精査するので、時間もコストもかかります。しかし、間違った知識や不快な情報を与える可能性は低く、問題が起きたときも原因を特定しやすくなっています。

実はあなたも使ってる!「自然言語処理」の利用方法

自然言語処理は、私たちの生活の身近なところでも利用されています。

■ かな漢字変換
パソコンやスマートフォンで日本語文を入力するとき、ひらがな(ローマ字)を漢字に変換して入力していると思います。これを「かな漢字変換」といいます。ここにも自然言語処理が利用されています。

■ Web検索
旅行先でおすすめのお店を探したり、選挙結果などのニュース記事を検索したりするとき、GoogleなどのWeb検索を使って情報を集めることが多いと思います。このWeb検索にも自然言語処理が利用されています。

■ 翻訳アプリ
海外旅行先での現地の人との会話や、課題の英語がわからないときなどに、スマートフォンの翻訳アプリを使っている方は多いと思います。
コンピュータ上である言語を別の言語に翻訳することを「機械翻訳」といいますが、これにも自然言語処理が利用されています。

おわりに

「自然言語処理」という言葉を知らなくても、日常生活のさまざまな場面で、自然言語処理技術を用いたサービスが利用されています。
今や、私たちの生活になくてはならないものです。
この先、技術が進めば、コンピュータは今よりもっと正確に私たちの意図をくみ取ってくれるようになるでしょう。
そのためにも、コンピュータが人間の言葉を理解する「自然言語処理」技術は欠かせません。

ILUでは今後も、自然言語処理の専門家がその仕組みについて説明する記事を連載します。
9月は、ルールベースの自然言語処理において、コンピュータが文を理解する手順「1. 文を意味の通じる最小単位である「単語」まで分ける方法(これを「形態素解析」といいます)」を解説します。

読み逃したくないという方は、ぜひ、ILUのアカウントフォローをお願いします。


【お問い合わせ先】
会社名:株式会社 言語理解研究所
本社所在地:〒770-0813 徳島市中常三島町1丁目32番地1
ホームページ:https://www.ilu.co.jp