見出し画像

検索精度の指標「適合率」と「再現率」

はじめに

前回の投稿では、ステミング、類義語(同義語)拡張等、自然言語処理でよく使われる基本的なテクニックについて紹介を行い、それらのテクニックがどのように全文検索のヒット率に貢献するかを説明させて頂きました。

※要約※Google等で調べたいキーワードを入力しインターネット検索をすると、目に見えないバックグラウンドでは様々なAIの機能が働きます。そのお陰で、何千万の中から関連度順に並べた検索結果を私達は見ることが出来るのです。

その中で、類義語(同義語)拡張等のテクニックにより、全文検索のヒット率が増加する事は説明しましたが

それにより『本来は意図していないドキュメントも返却されてしまう弊害』についても説明を行いました。

今回は、上述の全文検索の精度のバランス関係について解説を行います。

適合率と再現率

では、『検索結果』の『精度のバランス』はどのように保たれているのか?

下記をご覧下さい。

iOS の画像

仮にユーザが(果物の🍉)「スイカ」というワードを検索するとします。その場合、それぞれの記号は以下を表します。

U:検索エンジン中にインデックスされている「スイカ」含むドキュメント全て


N:ユーザが「スイカ」というキーワードで検索した際に返却された『すいか』『suica』を含むドキュメント全て


C:検索エンジン中にインデックスされている「スイカ 」に関するドキュメント全て


R:ユーザが、自身で意図したドキュメントと判断できた件数(今回はスイカ🍉の記事だと判断できた部分)

つまりは、AIで助けられるのはNまで。
R=精度とは、その人の価値基準によって変動する数値になります。

では、次はそれぞれ数式の説明です。

適合率(precision):正確性の指標

上の図のNはユーザが「スイカ」というキーワードを入力した際にAIが返却した、『すいか』『suica』含む全てのドキュメント。

その中でユーザが「スイカ🍉」の内容だと判断したドキュメントがR。

これを簡単な数式で表現すると

適合率:R ÷ N


となります。

この数式こそ、ユーザが検索を行って得た結果が、本人にとってどの程度意図した情報が得られたのかを確認する指標=精度と言えます。

「固有表現抽出」技術等は、固有表現を正しく認識する事で、結果の正確性をあげる事に繋がるので、適合率をあげるためのテクニックという事ができます。(?適合率の説明唐突すぎて意味わからんプー)

再現率(recall):網羅率の指標

次に再現率です。再現率は、上の図のCの円の中のRの割合で決定します。

Cは、検索エンジンの中の「スイカ」に関連するドキュメントの全て。

その中でユーザが「スイカ🍉」の内容だと判断したドキュメントがR。

同様にこちらを簡単な数式で表現すると

再現率:C ÷ N

つまり、再現率は検索エンジンに元々インデックスされている「スイカ」のドキュメントのうち、どの位のドキュメントが検索結果に表示されたか測定する指標なので、むしろ網羅率と表現する方が正解となります。

「ステミング」「類義語(同義語)拡張」等は、より多くのドキュメントを検索するために用いるテクニックなので、再現率の増加に繋がります。

適合率と再現率のバランス関係

全文検索のヒット率をあげれば、ゴミのドキュメントが混ざってしまい正確性が下がり、検索結果の正確性を上げれば、拾えるドキュメントの数は限定されてしまう。結果、検索結果の網羅率が下がってしまいます。こちらがまさに、適合率と再現率のトレードオフの関係そのものとなります。一般的に適合率と再現率の関係は以下のような図で表されます。

画像2

上の図のPrecisionは適合率、Recallは再現率を表していますが、明らかにどちらかの値が上昇すれば、どちらかが減少するという関係になっています。理想的にはこの2つの曲線が交差する点が適合率と再現率がバランス良く考慮されている点となります。

適合率と再現率のどちらが大事かという議論に関しては、一意に答えが定まる話ではありません。仮に、常に正しい検索結果が必要な場合は、適合率の方が重要な指標になりますし、とにかく幅広く色々なドキュメントが必要な場合は、再現率の方が重要な指標となります。

正確性と網羅性のバランスを表した数値が『F値』

上述の通り、適合率と再現率はトレードオフの関係にあり、このどちらかが上昇すれば、どちらかが減少するという関係にあります。このどちらかの指標の方がより重要になる場面はケース・バイ・ケースなのですが、どちらの指標も加味したいという場合もあると思うので、そこで用いられる指標がこのF値です。

F値の具体的な計算の仕方に関しては、数式が少々複雑になるため割愛しますが、適合率と再現率の療法が加味されており、このF値が最大になる時が、一般的に良い値とされています。

まとめ

本投稿では、情報検索にとって重要な指標である、適合率と再現率について説明をし、その2つの値のトレードオフの関係についても解説を行いました。適合率と再現率のどちらが重要かはケース・バイ・ケースで変化し、その2つの指標を考慮したF値という指標がある事も解説を行いました。

これらは、今まで解説を行ってきた全文検索や、今後解説を行っていく、機械学習等で重要な指標になるので、イメージだけは把握して頂ければ幸いです。

この記事が気に入ったらサポートをしてみませんか?