見出し画像

Theory of Mind for Multi-Agent Collaboration via LLMs(日本語訳)


このレポートは、論文 Theory of Mind for Multi-Agent Collaboration via Large Language Models について、Claudeを使い、質問形式で論文の内容を確認し、まとめたものです。誤りなどがあれば、ご指摘ください。

Abstractの要約

近年の大規模言語モデル(LLM)は、推論や計画などで良い成果を示しているが、マルチエージェントの協調能力は未解明。本研究では、LLMベースのエージェントを、理論的推論(ToM)の課題を含むマルチエージェントの協調的テキストゲームで評価しました。LLMベースのエージェントは協調的な振る舞いと高次の理論的推論能力を示しましたが、長期的なコンテキスト管理とタスク状態に関する問題があります。このため、世界知識に関する信念状態表現を組み込む手法を提案し、LLMベースのエージェントのToM推論とタスクパフォーマンスの向上に成功しました。ToM理論は他者の心的状態を推論する能力です。

Theory of Mind for Multi-Agent Collaboration via Large Language ModelsのAbstract

論文の目的

本研究では、LLMベースのエージェントがインタラクティブなチームワークのシナリオで、動的に変化する信念状態とエージェント間のコミュニケーションを含む高次のToM推論ができるかどうかを評価しています。独自のゲーム設定を通して、LLMベースのエージェントの環境理解、課題理解、行動計画、フィードバック解釈、適応といった一連の能力を評価することを目的としています。

ToM(Theory of Mind)とは

主に以下の3つの類型があります。

  • 自己反省(Introspection):自分自身の信念や意図を推論する能力(自分自身のメンタルステートを表明する能力)

  • 1次のToM:他者の信念や意図を推論する能力(他のエージェントの隠されたメンタルステートを推定する能力)

  • 2次のToM:他者が、自分(私)の信念を推論する能力(他のエージェントが自分自身のメンタルステートについてどう考えているかを推論する能力。)

自己反省(Introspection)は、自分自身の信念や意図を推論する能力を指します。例えば、ある人が仕事の選択をする際に、自分がどの選択肢を選びがちか、なぜそのように選ぶのかを理解することが自己反省の一例です。この能力は自己理解を深め、行動の意図を自覚するのに役立ちます。1次と2次のToMは、他者志向的な能力と言えます。1次のToMは基本的な他者理解の能力で、たとえば「相手はこの部屋の内容を知っているか」といった他者の信念の推論です。一方で2次のToMはより高次の他者理解で、「相手は自分がこの部屋の内容を知っていることを認識しているか」といった、相手の2階層上の信念を推論する能力です。この3つの類型が段階的に獲得されることで、他者とのより円滑な交流が可能になります。

協調的テキストゲーム

ゲーム設定

マルチエージェント(複数のエージェント)による検索救助ミッションを模したものです。具体的には、3人のエージェント(Alpha、Bravo、Charlie)が5つの部屋に散らばった色分けされた爆弾を探索し、正しい順序で切断ツールを使用して解体していくというゲームです。以下、具体的なゲーム設定です。

  • 1回のミッションでは、5つの部屋に5つの爆弾がランダムに配置される

  • 例えば、部屋番号は0, 3, 6, 5,  8であり、部屋 0 だけが全ての部屋と隣接している

  • エージェントは自分の部屋と隣接した部屋にだけ移動できる

  • 爆弾の種類は、1フェーズ:2つ、2フェーズ:2つ、3フェーズ:1つ

  • 各爆弾のフェーズは色(赤、青、緑など)で表現される

  • 解体するには、その色と対応する色のワイヤーカッターを順番に使用する必要がある(例えば、爆弾のフェーズが「赤 - 緑 - 青」の場合、この順番で対応する色のカッターを使う必要がある)

  • エージェントのチームは、この1回のミッションで配置された5つの爆弾を全部解体することが目標

  • 解体できなかった場合はタイムリミット(30ラウンド)に達した時点でそのミッションは終了

  • 次のミッションでは、新たに部屋と爆弾の配置がランダム生成される

  • 各ミッションでの爆弾の配置は異なる

つまり、1回のミッションにおける爆弾フェーズ数と爆弾数は固定されているが、次のミッションでは状況が変化する、という関係です。複数回の実験が行われることで、エージェントの適応力が試されました。

エージェントの行動

  • 各エージェントは部分的な観測能力しかない

  • エージェントは行動と結果をコミュニケーションで共有し合う必要がある

  • チームとしてのスコアを最大化するには、調整と同期が必要

このようにエージェントは不完全な情報の下で探索し合作しながら目的を達成していくインタラクティブなゲームとなっています。これによってLLMが持つ理論的推論能力と協調行動が評価できます。なお、結果と行動をコミュニケーションできますが、他のエージェントがどのような信念をもっているかは、交換されません。またエージェントが所持できるワイヤーカッターは下記の通り、各エージェント2色のみです。

  • エージェントAは赤と緑

  • エージェントBは緑と青

  • エージェントCは青と赤

つまり、爆弾の解体には3エージェントの連携が必要不可欠という構成になっています。

エージェント間の交信

LLMベースのエージェント間のコミュニケーションチャネルが実装されており、自然言語のテキストメッセージを交換できると記されています。エージェント間で交換可能なメッセージの内容としては、以下のようなものが含まれると考えられます。

  • 現在の位置や部屋の内容などの状況報告

  • 爆弾の順序や処理方法などのタスク関連情報

  • 行動指示や助言の要請などの調整メッセージ

  • 成功や失敗などの結果報告

これらのメッセージはリアルタイムで他のエージェントに共有され、次のラウンドの観測の中で確認できるとのことです。つまり、自然言語形式でタスク推進に必要な様々な情報をエージェント同士が交換し合い、それに基づいて意思決定と行動選択を行う、という協調プロセスがこのゲームで模されていると考えられます。ただし、エージェントが他エージェントの正確な信念状態を知る方法はなく、不完全な情報の下で推論しながら行動せざるを得ません。これが理論的推論(ToM)を必要とする所以です。

明示的な信念状態の導入

結論に出てくるシステマティックな失敗を回避する目的で、GPT-4に明示的な信念状態を更新するGPT-4+Beliefを実施したモデルを導入してます。各LLMベースエージェントが持つ信念の状態表現(belief state)に以下のような情報が含まれると記されています。

  • マップの部屋の接続関係(room connectivity)

  • 各部屋にある爆弾のリスト(bomb intel)

  • 爆弾のフェーズシーケンスの情報(bomb sequence)

  • チームメイトの位置(teammate locations)

  • 自分とチームメイトが持つワイヤーカッターの情報(tool inventory)

  • 実行可能なアクションのリスト(available actions)

このbelief stateはテキストの形式で表現され、エージェントは観測に基づいてこれを更新することができます。つまりマップ情報やタスク進行状況といった重要な世界知識を信念として保持し、それに基づいて行動決定を行うという形になっています。これにより長期的な状況変化への追従が可能になります。

協調的テキストゲームの実験で得られた結果

結論

  • LLMベースのエージェント(特にGPT-4)は複雑なマルチエージェント協調タスクを、最先端のマルチエージェント強化学習(MARL)アルゴリズムと同等のレベルでこなせた。

  • LLMベースのエージェントでは、コミュニケーションによる調整、役割分担、相互支援などの協調的振る舞いが自発的に生じた。

  • 一方で、長期的状況の管理や誤った状態想定などのシステマティックな失敗が認められた。

  • 明示的な信念状態表現を導入することで、これらの失敗が大幅に改善し、タスク性能とToM推論精度が向上した。

以上から、LLMにはある程度の理論的推論や世界理解、状況モデリング、社会的対話の能力が備わっていることが示唆された、という結果でした。

システマティックな失敗

  • 長期的コンテキストの管理の失敗:過去の情報を考慮せず、現在の質問文のみで次の行動を決定しようとして無効な行動を選択してしまう傾向がありました。

  • 状態に関する妄想:現在のゲーム状態について正しい認識を持てず、存在しない爆弾を探したり、実際には検査していない爆弾の配列について主張するなど、事実と異なる行動を取ってしまうことがありました。

これらの失敗は経験の部分的性や状態の不確実性に由来すると考えられますが、長期的な作戦立案を妨げている主な要因だと結論づけられた。

明示的な信念状態表現の導入

LLMベースのエージェントがテキストの形で世界に関する重要な情報(部屋の内容、爆弾の配列など)を保持・更新するようにプロンプトを工夫する手法です。具体的には次のようなことを行っています。

  • エージェントに、最初の信念状態(部屋の接続情報、ツールの所持状況など)のテキスト記述を提示

  • 行動後の観測結果を受け取った際に、その観測に基づいて信念状態のテキストを更新するよう指示

  • 更新された信念状態を会話履歴に保持させる

これにより、エージェントが重要な世界知識を明示的に追跡できるようになり、状況認識が改善されます。これが無効な行動の大幅な削減とToM推論の精度向上につながったと考えられています。

LLMのToMに関する考察

他者の信念をToMで推論して保持する

LLMベースのエージェントに対して、ゲームプレイ中に他エージェントの信念状態を推論するToMの課題も与えています。具体的には、あるエージェントが新しい情報を得たり行動した後で、その情報や影響を他のエージェントが認知できているかをLLMに尋ねるというものです。例えば、「部屋Xの内容をあなたは知っていますか?」といった自己反省の質問や、「プレイヤーYはあなたが部屋Xの内容を知っていることを認識しているでしょうか?」といった2次のToM推論が要求されます。
これにより、LLMが他エージェントの信念をどの程度正確に推論できるか評価しています。ただし、エージェント間で信念状態そのものを交換するという実装は行われていないと考えられます。

ToMの精度

LLMベースのエージェントのTheory of Mind (ToM)の能力を3つのレベルで評価しています

  1. 自己反省(Introspection): ChatGPTが79.0%、GPT-4が80.0%、GPT-4+Beliefが97.2%の精度

  2. 1次のToM: ChatGPTが41.9%、GPT-4が60.0%、GPT-4+Beliefが80.1%の精度

  3. 2次のToM: ChatGPTが11.6%、GPT-4が64.3%、GPT-4+Beliefが69.4%の精度

以上のように、ChatGPTよりもGPT-4のほうが全般的に高いToM推論能力を示し、さらにbelief stateの明示的な表現を加えることで、GPT-4のToM性能が向上したことが示されています。

Appendix

ToMの評価方法

自己反省(Introspection)のToM推論の評価
LLMベースのエージェントに対してゲーム中にToM推論の質問をしたその回答を、人間のアノテーターが全体のやり取りの履歴をもとに主観的に判断して正解ラベルをつけています。具体的には以下の基準でエージェントの回答が正しいかどうかを判断しています。

  1. ターゲットエージェントが現在の部屋にいて, 結果を直接観測できる場合

  2. ターゲットエージェントが過去にその部屋にいた経験がある場合

  3. 結果がターゲットエージェントにコミュニケーションで伝えられている場合

これらの条件を満たす場合, ターゲットエージェントはその結果を知りうると判断し, エージェントの回答が正解となります。逆に条件を満たさない場合は不正解としています。これらの人間判断を真値として, LLMエージェントのToM推論の精度を計算しています。

1次のToM:

  • ターゲットエージェントの現在の立場に立って、状況から推論可能な情報を知っているかどうかを判断

1次のToMにおけるエージェントの推論結果を人間が判断する際の基準は以下の通りです。

  1. ターゲットエージェントの現在位置を確認

  2. ターゲットエージェントがその部屋に今までにいたことがあるかどうかを確認

  3. 推論対象の情報(例:部屋の内容変化)がターゲットエージェントにコミュニケーションで送信されているかを確認

これらの条件を考慮して、ターゲットエージェントがその情報を知り得る状況にあるかどうかを人間が判断しました。例えば、部屋Xの内容変化を他のエージェントが知っているかを推論する場合、

  • もしそのエージェントが部屋Xにいなければ「知り得ない」

  • 過去に部屋Xにいたことがあっても「知り得ない」

  • コミュニケーションで部屋Xの変化を送信されていない場合も「知り得ない」

という風に現在の状況証拠から推論の正誤を判断しています。こうした一連の判断基準に基づいて、人間アノテーターがエージェントの1次ToM推論結果の妥当性を評価したと考えられます。

2次のToM:

  • 自分が共有した情報から、ターゲットエージェントが「自分がその情報を知っている」と推論できるかどうかを判断

  • 過去のコミュニケーション内容を考慮する

2次のToMにおけるエージェントの推論結果を判断する際の人間の基準は以下のような流れでした。

  1. 1次のToM同様、ターゲットエージェントの現在の立場を確認

  2. 自分(エージェント)が特定の情報を知っていることを、過去のコミュニケーションでターゲットエージェントに伝えているかを確認

  3. ターゲットエージェントがそのコミュニケーション内容を理解できる立場にあるかを判断

  4. 以上から、ターゲットエージェントが「エージェントがその情報を知っていることを認識できる」状況にあるかどうかを判断

例えば、「ターゲットエージェントは、自分が部屋Xの内容を知っていることを認識しているか」という2次ToMの質問に対して、

  • もし過去に部屋Xの内容を報告したメッセージを送っていれば「認識している」

  • メッセージ送信した際ターゲットエージェントが既に退室していて内容を認知できなければ「認識していない」

といった具合に判断したと考えられます。こうした基準に基づき人間が2次ToMでのエージェントの推論結果を評価した流れだと思われます。

初期のプロンプト

論文の記述から、各エージェントに与えられる初期のプロンプトには、以下のような情報が含まれていると考えられます。

  • ゲームのルールと目的の説明

  • 部屋の数と接続関係

  • 各エージェントが持つワイヤーカッターの色

  • 行動の選択肢(移動、調査、解体等)

  • コミュニケーションの方法

  • 観測できる情報(ラウンド数、得点、場所、チームメイトの場所等)

これらのゲーム設定の説明に加え、初期の信念状態(爆弾情報やチームメイトのワイヤーカッター等)も文字通り提示されると考えられます。これにより、全エージェントがゲームの条件を理解し、最初のアクションを即座に生成できる状態が整えられていると思われます。

報酬

各爆弾が成功裏に解体されると、チームはその爆弾のフェーズ数xに応じて10*xポイントの報酬を得る。例えば2フェーズの爆弾を1つ解体した場合は20ポイント獲得となる。
ミッション1回分の最大報酬は5個の爆弾すべてを解体した場合の90ポイントになります。(2個のフェーズ1の爆弾は20点、2個のフェーズ2の爆弾は40点、1個のフェーズ3の爆弾は30点で合計90点となる)
これらから、1つの爆弾のすべてのフェーズが正しい順序で解体された時点で、その爆弾のフェーズ数に応じた報酬がチーム全体に同時に与えられると考えられます。
つまり個々のエージェントに分配されるのではなく、チームの合計スコアに追加されていくイメージです。エージェント間での報酬分配は明記されていないので、均等に分配されると思われます。

この記事が気に入ったらサポートをしてみませんか?