見出し画像

SHROOM-INDElab at SemEval-2024 Task 6: Zero- and Few-Shot LLM-Based Classification for Hallucination Detection

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

  1. 本研究は、SemEval-2024 Task 6の競技に参加したUniversity of AmsterdamのSHROOM-INDElabチームのエントリーについて説明しています。このシステムは、大規模な言語モデル(LLM)を使用して幻覚検出のための分類器を構築するためのプロンプトプログラミングとインコンテキスト学習に関する以前の研究を基にしており、タスク、役割、およびターゲットコンセプトの文脈固有の定義の組み込み、およびフューショットプロンプティングアプローチで使用するための例の自動生成を通じて、その研究を拡張しています。このシステムは、Task 6のモデルアグノスティックトラックとモデルアウェアトラックでそれぞれ4番目と6番目に優れたパフォーマンスを達成し、バリデーションセットを使用した評価では、システムの分類決定がクラウドソーシングされた人間のラベラーと一致していることが示されました。さらに、自動生成された例を使用したフューショットアプローチよりもゼロショットアプローチの方がより正確であることがわかりました。この論文で説明されているシステムのコードはGithubで利用可能です。

  2. 本研究の目的は、幻覚検出のための分類器を構築するためにプロンプトエンジニアリングを使用することです。具体的には、大規模な言語モデル(LLM)を使用して、幻覚の生成が懸念される場合に合理的で事実に基づき、提供された入力に忠実な出力かどうかを判断する方法を評価することです。SemEval-2024 Task 6は、上記の研究と関連する知識抽出のためのゼロショットおよびフューショット分類の技術を適用することで、この懸念に対処する手段を提供するかどうかを評価するためのものです。

  3. 本研究で使用されたデータは、タスク、入力テキスト、目標テキスト、生成されたテキストなどのデータポイントからなるデータセットです。具体的なタスクに基づいて、言語モデルが実行する特定のタスク、入力テキスト、受け入れ可能な出力の例である目標テキスト、および言語モデルが生成した出力が含まれています。幻覚検出はバイナリ分類タスクとしてフレーム化されており、分類器はデータポイントに対して「幻覚」または「非幻覚」のラベルを割り当て、それに関連する確率推定値を付けます。分類器のパフォーマンスは、これらの割り当てと確率推定値を人間の判断とその確率推定値と比較して、正確性とスピアマンの相関係数(ρ)を使用して評価されます。約200人のクラウドソーシングされた人間のラベラーがそれぞれ約20のデータポイントにラベルを付けました。競技には、基本的なセットアップを使用するモデルアグノスティックトラックと、各データポイントのテキストを生成するモデルのHugging Faceモデル識別子のフィールドを追加するモデルアウェアトラックの2つのトラックがあります。各トラックには、ラベルの付いていないトレーニングデータセットとラベルの付いたバリデーションおよびテストデータセットが提供されます。

  4. 本研究で使用された手法は、LLMのプロンプトエンジニアリングを使用して幻覚検出のための分類器を定義するシステムです。図1は、このシステムのワークフローを示しています。ステージ1では、ゼロショットの方法で提供されたタスク、役割、およびコンセプトの定義に基づいて、LLMに分類を実行するように要求します。これらの分類されたデータポイントは、ステージ2で使用されるフューショット分類器の例を提供します。クエリの設計と処理手順については、3.1節で説明します。

3.1 ゼロショットおよびフューショットクエリの設計

図2は、LLMに分類を促すために使用されるクエリの例を示しています。基本的なプロンプトテンプレートは、生成されたテキストを幻覚の概念定義に従って評価し、生成されたテキストが幻覚かどうかを判断するための指示で構成されています。回答の形式がラベルテストデータと直接比較できるように、具体的なガイダンスが提供されます。

データポイントに基づいてテンプレートを具体化するために関与する要素には、生成されたテキストを作成するために別のLLMによって実行されるタスク定義、分類器が実行する役割定義、および幻覚現象と出力を幻覚として考慮するための基準をフレーム化するコンセプト定義が含まれます。LLMとの役割プレイの使用は、(Shanahan et al., 2023)によって説明されており、ゼロショット推論の文脈での使用は(Kong et al., 2023)によって説明されています。役割定義は、LLMに対して分類の決定を行う文脈で仮想人物を担当するように指示するものです。例えば、Definition Modelingのタスクでは、LLMに辞書編集者の役割を担当するように指示します。各タスクのタスクと役割の定義は、Table 2に示されています。また、すべてのタスクに対して幻覚の概念定義を1つ提供します。

3.2 温度サンプリングと多数決

タスクの一部は、データポイントが幻覚を示す確率の推定値を生成することです。SHROOM-INDELabシステムでは、推定確率は温度サンプリング(Ackley et al., 2023)を行うことで計算されます。

この記事が気に入ったらサポートをしてみませんか?