見出し画像

図書館の役割を果たす検索エンジン

はじめに

AIのコミュニケーション力の要素技術にあたる「自然言語処理」

自然言語処理は、「人間の言葉を理解し、それに対して何らかのアウトプットを返すもの」である事を説明しました。(※前回の投稿)

では、今回は「自然言語処理」技術の代表的な活用例として「検索エンジン」についてお話致します。

今や検索エンジンは、Googleを始めとしたPC、スマートフォンで行うネットサーフィン等、皆様の日常生活で無くてはならない存在となりました。

本記事では「検索エンジン」がどのように動いているのか?図書館に例えて分かりやすく解説をしてみました。

今回解説する「検索エンジン」に使われる技術は、自然言語処理の要。「検索エンジン」の仕組みについて学習する事で、効果的に自然言語処理の学習が可能であり、とても重要な要素といえます。

検索エンジン

検索エンジン(けんさくエンジン、英: search engine)は、狭義にはインターネットに存在する情報(ウェブページ、ウェブサイト、画像ファイル、ネットニュースなど)を検索する機能およびそのプログラム。インターネットの普及初期には、検索としての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索をサービスの一つとして提供するウェブサイトを単に検索サイトと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。

※日本語Wikipediaから引用

狭い意味では、インターネットに存在する情報を検索するサービス

広い意味では、インターネットに限定せず情報を検索するサービス

と書かれています。今回は話をわかりやすくするために、Googleの検索エンジンを思い浮かべてください。

スマホ等でGoogle検索を行った場合

「検索したいキーワード」を入力

Googleは「情報検索」に関連するドキュメントを順位をつけて返却

この一連の流れによって、検索結果が表示されます。これが検索エンジンの基本的な挙動です。

これをもとに解説すると

①キーワードの意図解釈の部分が自然言語理解

②キーワードを入力してから、ドキュメントを返すまでの一連の処理が自然言語処理

となるわけです。それでは少しだけ内側に踏み込んで、検索エンジンの動作の仕組みを解説していきます。いよいよ本題の、図書館を例にあげた解説です。

繰り返しになりますが、検索エンジンを学ぶことは自然言語処理のエッセンスそのものを学ぶ事に繋がります。ここからの説明を理解することがとても重要です。

検索エンジンの動作の仕組みとは?

今回は検索エンジンの仕組みを『AIの知識について学びたいA君が、自分に合った本を図書館で探す過程』に例え、解説してみました。

AI初心者のA君。図書館に来ましたが、初心者向けから上級者向けの本がズラリ。初心者向けの本はどこに?探すことに。

(1) 本棚→『検索インデックス』

図書館の本棚は、様々なジャンルの本が置かれ、作者順、あいうえお順等、一定の規則で本が並べられています。新しい本が入荷されれば補充を、情報が古い本は削除をするなど、常に本棚は管理と更新が必要です。

同様に、Google上にも日々大量の情報が更新し、蓄積されていきます。これでは古い情報、新しい情報が無造作に蓄積されてしまいます。本を整理する本棚同様、更新されていく大量のWebドキュメントを保管し、管理する場所が必要ですね。それが検索インデックスの役割なのです。

(2) その人の読みたい本を探してくれる→『検索キーワード』

AIについて整理された本棚を見つけたA君。しかし、A君がほしいのは『初心者向けの』AIの本。自分に合った本がどれか、分かりません。

その場合、まずは「AI 入門」等という「初心者向け」っぽい言葉がタイトルに入っている本を探すことが必要。本のタイトルはその書籍の内容を簡潔に表すため、初心者向けっぽいキーワードが入っていると、読みたい本の候補になりますよね。

つまり検索キーワードとは、「AI 入門」のような、ユーザーのキーワードをもとに、ユーザーが求めているものを探す機能ということです。

(3) 複数の候補から、自分に合った優先度をつけてくれる→検索ランキング

AI初心者のA君。自分の読みたい本が幾つか集まってきました。しかしタイトルだけでは、適した内容かどうか判別出来ません。

仮に、幾つかある候補の中から、1冊を選定しなければならないとすると、皆さまはどのように本を選ばれるでしょうか?レビューを参考にする、本の内容のわかりやすさを確認する等、視点は様々ですが

何よりもその本の内容が、本を探している目的に対して、関連度が高いかどうかが重要ですよね。

つまり、ユーザの検索キーワードを受け取ると、ユーザーが求めたドキュメント順に自動でランキングしてくれるのがGoogle検索の機能です。

実際は関連性だけではなく、色々な要素が加味されていますが、基本は検索キーワードとドキュメントの間の関連性の深さを考慮した結果が表示がされます。

さて、以上が検索エンジンの仕組みです。

次回は「ユーザーが打ち込んだキーワードを、検索エンジンはどのように解釈しているのか?」

について解説します。これを理解をしないと、検索エンジンの核について何も理解できない事になります。

しかし同時に、この点を理解する事こそが『自然言語処理』を学ぶのに非常に役立つのです。

皆さん、もう少し頑張りましょう…!!

まとめ

最後はAI専門用語を用いて、図書館の機能との結びつきを記しておきます。

・インデックス:図書館の本棚に相当
・検索クエリ:図書館の利用者が欲しい本を探す作業に相当
・検索ランキング:図書館の利用者が読みたい本を絞り込む作業に相当

次回は、ついに『自然言語処理の核』である「全文検索」についてです。

次回の核について理解が深まれば、AIについて面白く感じていただける方が増えてくるはず…!

お付き合いいただける方、今後ともよろしくお願い致します。

この記事が気に入ったらサポートをしてみませんか?