Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering
本研究の学術的背景は、視覚と知識ベースの質問応答(Knowledge-based Visual Question Answering, KB-VQA)に関するものです。研究の核心となる学術的「問い」は、「既存の手法であるRetrieval-Augmented Visual Question Answering(RA-VQA)の限界を超えて、詳細な情報を反映できる高精度の知識ベースの質問応答システムを開発するにはどうすればよいか」です。
本研究の目的は、「Fine-grained Late-interaction Multi-modal Retrieval(FLMR)」という新しい手法を提案し、RA-VQAの知識検索の精度を向上させることです。学術的な独自性と創造性は、視覚とテキスト情報を統合して資料との関連性を詳細に評価し、より完全な画像理解と高精度な知識検索を実現する新しい手法を提案している点にあります。
本研究の着想は、画像をテキストに変換することで得られる画像表現が不完全であり、資料との関連性を評価するための埋め込みが一次元で精度が低いという、RA-VQAの手法の限界によるものです。これらの問題を解決するために、FLMRを開発しました。
本研究では、新たに提案したFLMRという手法を用いて、画像表現の取得法を改良し、質問と資料との関連性の評価法を改善しました。具体的には、視覚モデルを用いて画像から詳細な情報を取得し、質問と資料との関連性を多次元の埋め込みで評価することで、より詳細な関連性を捉えることができます。これにより、元のRA-VQAのリトリーバのPRRecall@5を約8%向上させました。
本研究の有効性は、FLMRを用いて知識検索を行った結果、RA-VQAのリトリーバよりもPRRecall@5が約8%向上したことで検証されました。また、OK-VQAデータセットでのVQAスコアが約61%を達成し、これは同じパラメータ規模の最先端モデルを上回る結果です。
この記事が気に入ったらサポートをしてみませんか?