【日本語訳】PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models
概要(abstract)
我々は、戦術的なバトルゲームにおいて人間並みのパフォーマンスを達成した初のLLM(大規模言語モデル)搭載エージェント、「ポケLLモン」を紹介します。これは、ポケモンバトルで示されています。ポケLLモンの設計は三つの鍵となる戦略を取り入れています。
三つの鍵となる戦略
インコンテキスト強化学習:
バトルから得られたテキストベースのフィードバックを即時に活用し、ポリシー(方針)を反復的に洗練させる。
知識拡張生成:
外部知識を取得して幻覚を防ぎ、エージェントがタイムリーかつ適切に行動できるようにする。
一貫した行動生成:
エージェントが強力な対戦相手に直面し、戦いを避けたいと思ったときに発生する「パニックスイッチング」現象を軽減する。
結果
オンラインバトルでの人間との対戦は、ポケLLモンが人間らしいバトル戦略とタイミング良い意思決定を行うことを示しています。これにより、ラダーコンペティションでは勝率49%、招待バトルでは勝率56%を達成しています。
実装とプレイ可能なバトルログ
実装とプレイ可能なバトルログは、以下のURLで利用可能です
導入(Introduction)~ 結論 (Conclusion)
論文サイト
リポジトリ
Hugging Face
この記事が気に入ったらサポートをしてみませんか?