AgentBench: Evaluating LLMs as Agents

2023年8月10日 15:27

1. 本研究の学術的背景，研究課題の核心をなす学術的「問い」は？
- 大規模言語モデル（LLMs）は、従来の自然言語処理（NLP）タスクを超えた実世界的な実用的なミッションを対象として、ますます賢く自律的になりつつあります。その結果、インタラクティブな環境で難解なタスクに対するLLMの代理人としての能力の評価が急務となっています。

2. 本研究の目的及び学術的独自性と創造性は？
- 本研究の目的は、LLMを代理人として認識、推論、意思決定を行う能力を評価することにあります。そのために、 AgentBenchというマルチ次元進化ベンチマーク環境を提供しています。本研究の独自性は、複数タスクの状況においてLLMの能力を統一的に評価できる点にあります。

3. 本研究の着想に至った経緯や、関連する国内外の研究動向と本研究の位置づけは？
- 近年、LLMの普及に伴い、自然言語処理の分野において、LLMを用いた様々な研究や応用が行われています。本研究では、そのような現状を踏まえ、多面的に、様々なLLMを評価することによって、代理人としての能力について学ぶことができます。

4. 本研究で何をどのように、どこまで明らかにした？
- 本研究では、複数のタスクの状況において、LLMによる代理人の能力を評価するためのマルチ次元進化ベンチマーク環境であるAgentBenchを提案しました。また、25種類の様々なLLMを分析して、強力な代理人としての能力がある商用LLMと、オープンソースの競合製品との間に大きな差があることが示されています。

5. 本研究の有効性はどのように検証した？
- 本研究では、商用LLMおよびオープンソースの競合製品を分析して、それぞれの性能について報告されています。また、AgentBenchデータセットおよび環境が公開されたことで、今後のLLMに関する研究に役立てられることが期待されています。

この記事が気に入ったらサポートをしてみませんか？