GPT-4、心の理論タスクで人間を超える！AIが心を読む時代へ

2024年5月31日 19:13

「LLMs achieve adult human performance on higher-order theory of mind tasks（LLM は高次の心の理論の課題において成人と同等のパフォーマンスを発揮する）」こういうタイトルの論文がとても興味深いのでこのNoteで深ぼっていきます。論文は下記の

GPT-4は6段階の推論で成人のパフォーマンスを上回った

この論文は、大規模言語モデル（LLMs）が多段階の心の理論（Theory of Mind, ToM）タスクでどれだけのパフォーマンスを発揮するかを評価しています。特に、GPT-4が成人のToMタスクにおいてどのように成人のパフォーマンスを上回ったかに焦点を当てています。この研究は、手書きのテストスイート「Multi-Order Theory of Mind Q&A」を導入し、5つのLLMsのパフォーマンスを新たに収集した成人のベンチマークと比較しました。その結果、GPT-4とFlan-PaLMがToMタスクで成人レベルまたはそれに近いパフォーマンスを達成し、特にGPT-4は6段階の推論で成人のパフォーマンスを上回りました。

心の理論（Theory of Mind, ToM）とは？

ToMは、自分自身や他者の精神状態を推測し、推論する能力です。これには、意図、信念、感情などを含む複数の精神状態を考慮する能力が含まれます。この能力は人間の社会的知性の中心的な要素であり、行動を予測し、影響を与えるために重要です。

LLMsと心の理論

大規模言語モデル（LLMs）は、ある程度のToM能力を示しています。特に、GPT-4やFlan-PaLMは、ToMタスクにおいて成人レベルのパフォーマンスを達成しました。GPT-4は6段階の推論タスクにおいて成人を上回るパフォーマンスを示し、モデルサイズと微調整がToM能力の実現において重要な役割を果たすことが示唆されています。

実験の方法

研究では、新しいベンチマーク「Multi-Order Theory of Mind Question & Answer (MoToMQA)」を導入し、これを用いて人間とLLMsのToM能力を評価しました。MoToMQAは、短編小説に基づく真偽の質問に答える形式のテストです。これにより、ToMの階層がパフォーマンスに与える影響、LLMsのパフォーマンスが人間のパフォーマンスとどう比較されるか、そして同等の文法的複雑さを持つ事実に関するタスクと比較してLLMsのパフォーマンスがどうであるかを評価しました。

6段階の推論

6段階の心の理論推論タスクは、被験者が他者の心的状態を段階的に推測していく能力を評価するものです。以下に各段階の詳細を示します。

第1段階（1st-order）:
- 被験者自身の精神状態を評価します。
- 例：「私は彼が怒っていると思う。」
第2段階（2nd-order）:
- 被験者が他者の精神状態について推論します。
- 例：「彼は彼女が怒っていると思っている。」
第3段階（3rd-order）:
- 他者がさらに別の他者の精神状態を推測する能力を評価します。
- 例：「彼は彼女が私が怒っていると思っていると考えている。」
第4段階（4th-order）:
- より複雑な多重推論を含む精神状態を評価します。
- 例：「彼は彼女が私があなたが怒っていると思っていると考えている。」
第5段階（5th-order）:
- 非常に複雑な多段階の推論を含む精神状態を評価します。
- 例：「彼は彼女が私があなたが彼が怒っていると思っていると考えている。」
第6段階（6th-order）:
- 最も高度な多段階の推論を含む精神状態を評価します。
- 例：「彼は彼女が私があなたが彼が私が怒っていると思っていると考えている。」

実験結果

実験の結果、GPT-4は6段階の心の理論推論タスクにおいて成人を上回るパフォーマンスを示しました。具体的には、GPT-4は93%の正答率を達成し、成人の82%を上回りました。この結果は、GPT-4が高度なToM推論能力を持ち、人間の認知負荷に影響されないことを示しています。

GPT-4は6段階の推論タスクで成人を上回る結果

GPT-4とFlan-PaLMは、全体的に見て成人レベルまたはそれに近いパフォーマンスを達成し、特にGPT-4は6段階の推論タスクで成人を上回る結果を示しました。具体的には、GPT-4は93%の正答率を達成し、成人の82%を上回りました。GPT-4 just surpassed adult human performance at THEORY OF MIND tasks」に関する部分について詳しく説明します。

GPT-4 exceeds adult performance on 6th order inferences:
- この研究の結果、GPT-4は6段階の心の理論推論タスクにおいて成人のパフォーマンスを上回りました。具体的には、GPT-4は93%の正答率を達成し、成人の82%を上回りました。この結果は、GPT-4が高度なToM推論能力を持ち、人間の認知負荷に影響されないことを示しています。
Implications for user-facing LLM applications:
- 高次のToMは、協力的および競争的な人間の行動において重要な役割を果たします。LLMsがこの能力を持つことは、ユーザー向けアプリケーションにおいて、ユーザーの目標をよりよく理解し、適応する能力を持つ可能性があります。一方で、この能力は説得や操作、搾取のリスクも伴うため、倫理的な考慮が必要です。

言語だけで人間の心理状態を推論する仕組み

人間は感情を隠す技術（ポーカーフェイス）を持っており、そのために他人の心の状態を正確に読み取ることは困難です。言語だけで心の中の複雑な感情を完全に理解するのは難しいかもしれませんが、以下のポイントから、言語モデル（LLMs）がどのようにして心の理論（ToM）推論を行っているかを考察できます。

言語モデルの心の理論（ToM）推論の仕組み

文脈の解析:
- GPT-4などの大規模言語モデルは、文章の文脈を解析する能力に優れています。これにより、発話やテキストの中に含まれる微妙な感情や意図を読み取ることができます。例えば、特定の言葉遣いや表現方法から話者の感情を推測することが可能です。
過去のデータからの学習:
- これらのモデルは、大量のテキストデータから学習しています。そのため、様々な状況での人間の感情表現や反応パターンを理解しています。これにより、表面上の言葉だけでなく、その裏にある感情や意図を推測することができます。
微調整（フィンチューニング）:
- LLMsは、特定のタスクに対して微調整されています。例えば、感情分析や意図認識のタスクに対して訓練されることで、より精度の高い推論が可能になります。
限界と強み:
- もちろん、言語モデルは非言語的な手がかり（例えば、表情や身体言語）を直接観察することはできません。しかし、テキストの中で言及されるこれらの手がかりや、文脈から推測される感情をもとに推論を行うことができます。

具体的な例

例えば、次のような会話があったとします：

会話例:

A: 「今日は大変だったんだ。」
B: 「そうなんだ、大変そうだね。でも、頑張ってるね。」

この短い会話からでも、モデルはAが「大変だった」と述べることで疲労やストレスを感じていること、Bがその感情を理解し、励まそうとしていることを読み取ることができます。

文脈と過去のデータに基づく高度な解析

言語モデルは言語の文脈とパターンを深く理解することで、心の理論（ToM）推論を行いますが、非言語的な手がかりに依存する感情の読み取りには限界があります。それでも、文脈と過去のデータに基づく高度な解析により、人間の感情や意図をかなりの精度で推測することができます。

このように、言語モデルは言語を通じて他者の心を理解する能力を持っていますが、完全な理解には非言語的な情報も必要であることを念頭に置く必要があります。

この記事が気に入ったらサポートをしてみませんか？