【論文紹介】A Non-Factoid Question-Answering Taxonomy

文献情報

タイトル:A Non-Factoid Question-Answering Taxonomy
著者:Valeriia Bolotova, Vladislav Blinov, Falk Scholer, W. Bruce Croft, Mark Sanderson
会議:SIGIR 2022

概要

明確な回答が存在するfactoid型の質問ではなく、比較的長文の意見や説明が回答として求められるnon-factoid型の質問回答(NFQA)を対象に、質問のタクソノミー(6カテゴリから構成される)を構築した論文。質問者が期待する回答の構造(「根拠付きの理由をリスト形式で」など)も調査。質問文からタクソノミーのカテゴリを予測するタスクにも取り組んでいる。

従来研究との差異

NFQAを対象としたタクソノミー構築の研究は、数は少ないものの取り組まれてきたが、タクソノミーの構築手順の記述が不十分であったり、構築したタクソノミーの妥当性の評価が行われておらず、本研究ではそうした点もカバーしている。

タクソノミー構築

本研究で構築されたタクソノミーは下図(図は論文より引用)。複数のデータセットから抽出した質問から著者がカテゴリとその説明(表の「Description」)を仮決めし、クラウドソーシングで理解容易性等を検証してカテゴリと説明を改善して最終的なタクソノミーを構築。

各カテゴリの回答の難しさの調査も行っている。
12人を対象にユーザ実験を実施。ユーザは6つの各カテゴリに対して4件ずつ質問を作り、さらに自分の作った質問に対して回答する難しさを3段階で回答。ユーザは他のユーザの質問への回答を人手で作成。さらにGoogle検索を使って機械的に作った回答を著者が用意。質問を作ったユーザは、人手の回答と機械的な回答のそれぞれに対して有用度を3段階で回答。Factoid型の質問と回答も同様に作成。
回答の難しさはFACTOIDとEVIDENCE-BASEDのカテゴリが低く、いずれのカテゴリでも人手で作成した回答よりも機械的に作成した回答の有用度が高いと判定された。DEBATE、EXPERIENCE、REASONのカテゴリは回答が難しいと判断され、機械的に作成した回答の有用性も最も低かった。

質問のカテゴリ予測

BERTやRoBERTaベースの手法で、6カテゴリ+2カテゴリ(factoid、not-a-question)の予測タスクを実施。RoBERTaベースの手法が最も精度が高く、8カテゴリ中7カテゴリでF1値が0.8以上、6カテゴリで0.9以上であった。

既存データセットへのタクソノミー適用

BingのクエリやYahoo answersのデータセットにタクソノミーを適用し、各カテゴリの分布を比較。データセット内の質問のカテゴリは上記のRoBERTaベースの推定モデルを使用。
クエリログではINSTRUCTIONが少ない(6%)のに対してYahoo answersでは全体の4割もを占めていたため、CQAではhow-to型の質問がされやすいことなどを議論している。

この記事が気に入ったらサポートをしてみませんか?