事前学習済み言語モデルを用いた検索モデルに対する教師なしドメイン適応
2023年度研究会推薦博士論文速報
[自然言語処理研究会]
飯田 大貴
((株)ユーザベース)
【背景】事前学習済み言語モデルを情報検索に用いることでより高精度な検索が実現されている
【問題】教師データを必要とするため応用先が限定されている
【貢献】検索における教師なしドメイン適応手法を提案し,応用先の拡充に貢献した
私たちは,普段の生活から情報検索の技術を使用している.情報検索とは,大量のデータから要求に合致したデータを取り出す技術であるが,特にインターネット上の文書検索を行うサービスである Web検索は日常生活にも欠かせないほど浸透している.シェアトップにあるGoogleでは,人々は1日平均 3~4 回ほどGoogleで検索を行うと言われている.
Googleに代表されるように,ユーザは検索システムに単語や文といった,人間が扱う言葉を入力し,システムは関連する文書をその関連度順に出力する.そのため,以前より人間が扱う言葉を処理する技術である,自然言語処理の技術が用いられている.その中でも,ニューラルネットワークを大量の文章で学習した,事前学習済み言語モデルであるBERTによって,情報検索は大きく精度を向上させている.そのため,以前から課題とされていた文脈を考慮した検索も可能となっている.
しかし,情報検索はWeb検索に限らず,組織内部の文書やFAQシステムなどのドメインでも用いられる.このようなドメインにおいては,Web検索とは異なり,検索で教師データとなるクリックログを大量に得ることは困難である.そのため,対象となるドメインで教師なしに高精度な検索モデルを得る必要がある.本研究では,事前学習済み言語モデルを用いた検索モデルに対して,教師なしドメイン適応を行うことで,精度を向上させる手法を提案した.
事前学習済み言語モデルを用いてテキストをベクトルに変換して検索を行う密ベクトル検索モデルは,教師データのドメイン外でクエリ中にあるキーワードが完全一致する文書を上位にすることができない.1つ目の手法では,この課題を解決する手法を提案した.具体的には,クエリ中の単語の一致とその重要度で関連度を計算する従来の検索手法に対して,密ベクトル検索モデルを用いて,文脈類似度を各単語毎に計算し,それを関連度として考慮する.この手法により,構築する検索システムで教師データが存在しない場合でも,単語の重要度と文脈を考慮した検索を行うことが可能となった.
2つ目の手法では,医療などの特に専門性の高いドメインでの検索精度を向上させる手法を提案した.このようなドメインは,教師データなしで検索の精度を向上させたいという要求が強いためである.提案方法では,事前学習済み言語モデルに対して,専門的なドメインのコーパスを用いて,語彙の追加とさらなる事前学習を行う.この方法により,専門的な用語の関連語についても一部自動的に拡張が可能となった.さらに,本手法は密ベクトル検索以外の事前学習済み言語モデルを用いるさまざまな検索モデルで使用可能であるため,それらを組み合わせてさらに精度を向上させられることを示した.
(2024年6月1日受付)
(2024年8月15日note公開)
ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
取得年月:2024年3月
学位種別:博士(工学)
大学:東京工業大学
ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
研究生活 研究テーマは,社内検索ではgoogleのような検索ができないという事例に出会ったことがきっかけで決めました.
研究では新規性が必要であるため,研究というフィールドにおいても,人を説得することとその材料を集めることが重要であるということが大変学びになりました.また,研究は未知への挑戦であるため,論理を構築することで,一見失敗したような結果であっても,それを乗り越えて研究成果にしていく原動力を生み出してくれるということが学びでした.
たとえ,選んだ専門分野外でキャリアを歩むことになっても,また,世界レベルの成果が出せなくとも,世界レベルで戦おうとしたことによって,得られるものは大きいと思いました.