Multi-party Goal Tracking with LLMs: Comparing Pre-training, Fine-tuning, and Prompt Engineering

2023年9月2日 22:46

1. **学術的「問い」**
この研究の学術的背景は、現在の大規模な言語モデル（LLMs）が課題指向の多者間会話（MPCs）をどの程度捉えられるかを評価することです。学術的な問いは「LLMsはMPCsにおけるユーザーの目標をどの程度理解し、捉えることができるか？」です。

2. **目的及び学術的独自性と創造性**
本研究の目的は、限られたデータでこの新たな課題を完了できるアプローチを見つけることです。これは、T5の微調整、DialogLMの訓練のための事前訓練タスクをLEDを用いて作成し、GPT-3.5-turboとのプロンプトエンジニアリング技術を比較するという学術的な創造性を含む独自の方法です。

3. **着想に至った経緯や、関連する研究動向と本研究の位置づけ**
研究の着想は、現在のLLMsが実際に多人数間の会話をうまく理解し、捉えているかに疑問を持ったところから来ています。人々が他の人々の目標を共有、回答、提供する多人数間会話という独特の動向を考えるとき、本研究の位置づけは大変重要となります。

4. **何をどのように、どこまで明らかにしたか**
この研究では、LLMsがMPCsをどの程度捉えられるかを評価しました。その結果、GPT-3.5-turboが他のアプローチよりも顕著に優れていることがわかりました。「物語」スタイルのプロンプトはモデルの幻覚を増加させ、安全が重要な設定での使用には悪影響を及ぼす可能性があることを明らかにしました。

5. **有効性の検証方法**
LLMsの有効性は、アノテーションされた会話の例を使って多人数間の会話の目標追跡と意図スロット認識のパーセンテージで評価しました。その結果、GPT-3.5-turboが他の方法よりも優れていることが確認されました。

この記事が気に入ったらサポートをしてみませんか？