NERetrieve: Dataset for Next Generation Named Entity Recognition and Retrieval

Ikemen Mas Kot

2023年11月1日 22:28

https://arxiv.org/abs/2310.14282

本研究の学術的背景、研究課題の核心をなす学術的「問い」は、「Named Entity Recognition（NER）は問題が解決済みなのか？」ということです。近年の大規模言語モデル（LLMs）の進歩により、従来は専用のモデルで処理されていたNERタスクにおいても効果的な解決策が提供されているようです。しかし、研究者はこれを問題解決と考えるべきではなく、むしろ新たな挑戦の始まりと捉えるべきだと主張しています。
本研究の目的は、LLMsを活用してNERタスクのさらなる発展に向けて、より細かいエンティティタイプやゼロショット認識など、より有用で困難なバリエーションに取り組むことです。また、新たなリトリーバルセットアップにおいても、従来の認識セットアップから異なるアプローチを試みています。これらの目的を支援するために、500のエンティティタイプをカバーする400万の段落からなる大規模なデータセットも提供されます。
本研究の着想は、エンティティの特定と抽出が自然言語理解の中核的なタスクであることから生まれました。また、従来の研究手法に加えて、LLMsの登場やゼロショットNERの可能性など、関連する国内外の研究動向も考慮しています。NERタスクの研究は終わりではなく、新たな始まりだという位置づけです。
本研究では、以下の内容を明らかにしています。

エンティティ認識セットアップからリトリーバルセットアップへの移行
エンティティタイプのより詳細で交差的な分類への移行
ゼロショットNERに基づいたエンティティタイプの抽出
上記の3つの目標に向けた大規模なデータセットの提供

本研究の有効性は、提供された大規模なデータセットを活用して、エンティティ認識の精度やタスクの実現可能性に関する実験的な評価によって検証されています。

この記事が気に入ったらサポートをしてみませんか？