OpenToM：LLMは「他者の視点から見た物理的世界の因果関係」をある程度理解している⁉️

2024年2月25日 01:35

以下ポストのメモ。

LLMの「心の理論」能力を詳しく調べるためのベンチマーク『OpenToM』が開発され、複数のモデルの能力が検証されました。

実験の結果、LLMは「他者の視点から見た物理的世界の因果関係」をある程度理解しているとのことです。

アランチューリング研究所などの研究者らによる報告です。

"OpenToM: A… pic.twitter.com/lFCBSdTFqL
— AIDB (@ai_database) February 24, 2024

ドキュメントのアウトライン

このPDF文書は、大規模言語モデルの心の理論（Theory of Mind, ToM）推論能力を評価するための包括的なベンチマーク「OpenToM」に関するものです。文書の構成は以下の通りです：

1. 導入：心の理論（ToM）とは何か、およびその社会的相互作用における重要性について説明します。
2. OpenToMデータセット ：OpenToMの構築方法、タスクの定式化、質問のジャンル、偽相関の軽減方法、データセットの検証について説明します。
3. 実験：基本モデル、プロンプト技術、全体的な結果について述べます。
4. 詳細な結果分析 ：地理的な質問における忠実性、キャラクターの役割におけるパフォーマンスの差、社会常識と態度についての分析が含まれます。
5. 関連作品 ：関連する研究について紹介します。
6. 将来の方向性 ：将来の研究のための提案が含まれます。
7. 結論：OpenToMベンチマークの概要と重要な発見について述べます。
8. 制限事項 ：OpenToMベンチマークの限界について説明します。

この文書は、言語モデルが人間の心の状態をどのように理解し、追跡するかを評価する新しいベンチマーク「OpenToM」を紹介しています。それは、より長くて明確な物語、明確な性格特性を持つキャラクター、キャラクターの意図によって引き起こされる行動、およびキャラクターの心理的および物理的な状態をモデル化する能力を挑戦するために設計された質問を特徴としています。

ChatGPT4

3.実験の全体的な結果をわかりやすく

実験の全体的な結果は、大規模言語モデルが人間の社会的および心理的状態を理解し、予測する能力に関して評価されたことを示しています。この評価は、様々なタイプの質問を通じて行われ、モデルがキャラクターの意図、感情、関係性、および社会的常識をどの程度正確に推論できるかを測定しました。結果は、言語モデルが一部のシナリオでは驚くほど良い推論能力を示す一方で、他のシナリオでは誤りや限界が明らかになったことを示しています。特に、モデルは具体的な事実やデータに基づく質問よりも、人間の感情や意図を推論する質問において苦戦する傾向がありました。この実験から、言語モデルの心の理論能力をさらに向上させるための新たな研究の方向性や改善の機会が示唆されました。

ChatGPT4

4. 詳細な結果分析わかりやすく

詳細な結果分析では、大規模言語モデルが様々なシナリオにおいてどのように振る舞うかについて深く掘り下げます。具体的には、キャラクターの社会的役割、地理的知識、感情の理解など、異なるタイプの推論においてモデルのパフォーマンスを評価します。この分析を通じて、モデルが特定のシナリオや質問タイプにおいては高い精度を示す一方で、他の面では大きな誤解を招く回答を提供することがあることが明らかになります。これは、モデルがまだ完全には人間の複雑な感情や社会的相互作用を理解していないことを示唆しています。詳細な結果分析からは、言語モデルの理解能力を向上させるために必要な研究の方向性が浮かび上がります。

ChatGPT4

有効なプロンプトに関する内容はありますか？

文書では、有効なプロンプトに関する具体的な内容がいくつか示されています。これらのプロンプトは、大規模言語モデル（LLM）が心の理論（ToM）タスクを解決するのに役立つよう設計されています。プロンプトのタイプには以下のようなものがあります：

1. Chain-of-Thought Prompting (CoT) : CoTプロンプトは、モデルに対してステップバイステップの推論プロセスを明示的に生成するよう要求します。この手法は、特に推論タスクで広く使用されています。プロンプトの形式は、モデルが他者の精神状態をモデル化する専門家であるかのように設定し、続いて短いストーリーを読み、それに続く質問に答えるようユーザーに指示します。

2. Simulated Theory of Mind Prompting (SimToM) : SimToMプロンプトは、N-ToMタスク（自然言語における心の理論タスク）を支援するために特別に設計されたプロンプトです。この手法では、最初にキャラクター中心の物語（Nc）を生成し、その後キャラクター固有の質問に答えるようモデルに求めます。

3. Self-Ask Prompting : Self-Askプロンプトでは、モデルに対して最終的な答えを導き出すために、明示的に提案されたフォローアップの質問に答えるよう要求します。この手法は、モデルがより複雑な思考プロセスを通じて問題を解決するのを助けることを目的としています。

これらのプロンプトは、言語モデルが人間のような複雑な社会的・心理的状況をより正確に理解し、推論するのを助けることを目的としています。プロンプトを使用することで、モデルは与えられたシナリオにおけるキャラクターの行動や感情をより深く分析し、それに基づいて質問に答えることができます。このプロセスは、モデルの心の理論（ToM）能力を評価し、向上させるための重要なステップです。

ChatGPT4

Self-Ask Promptingの具体例を示して

文書には、Self-Ask Promptingの具体例として詳細なテンプレートが提供されています。この手法は、大規模言語モデル（LLM）が与えられたシナリオに基づいてより洗練された推論を行うのを支援することを目的としています。具体例は以下の通りです：

Self-Ask Prompting テンプレート :
- システムの役割 :「あなたは他者の精神状態をモデリングする専門家です。」
- ユーザーの指示 :「以下の短い物語を読み、理解してください。その後、続く質問に答えてください。」

- 物語 : {{OpenToM Narrative}}
- 質問 : {{OpenToM Question}}
- ラベルスペース : 元の質問をサブ質問に分解してください。フォローアップ質問とそれに対する回答を明示的に記述し、フォローアップ質問への回答を集約して、最終的な回答を「最終回答: [answer]」として書き出してください。

このプロセスは、モデルが与えられた物語内で起こる事象についてより深く考察し、その結果としてより正確な回答を導き出すために設計されています。具体的な物語や質問は提示されていませんが、このテンプレートは、実際の物語や質問に応じてカスタマイズされることが想定されています。この手法は、特に心の理論（ToM）の推論タスクにおいて、モデルがより複雑な心理的プロセスを模倣し、人間のように推論するのを助けることを目指しています。

ChatGPT4

例を想定してみて

Self-Ask Promptingの手法を用いた想定の例を以下に示します。

物語 : トムとアリスは、週末にピクニックに行く計画を立てています。しかし、予報によると週末には雨が降る可能性があります。トムは晴れを好み、アリスは雨が降っても構わないと言っています。

質問 : 週末のピクニックに行くことについて、トムとアリスはどう感じていますか？

Self-Ask Promptingを用いた解答プロセス :
1. サブ質問1 : トムは晴れの日にピクニックに行きたいと思っていますか？
- 回答 : はい、トムは晴れを好むので、晴れの日にピクニックに行きたがっています。

2. サブ質問2 : アリスは雨が降ることによってピクニックの計画を変更したがっていますか？
- 回答 : いいえ、アリスは雨が降っても構わないと言っているので、計画を変更したがっていません。

3. サブ質問3 : 週末に雨が降ると予報されている場合、トムの感情や反応はどうなりそうですか？
- 回答 : トムは晴れを好むので、雨が予報されていると不満を感じるかもしれません。

4. サブ質問4 : アリスは雨が降った場合、ピクニックにどのように対応するでしょうか？
- 回答 : アリスは雨が降っても構わないと言っているので、ピクニックを続けるか、雨に適した活動を提案するでしょう。

最終回答 : トムは週末の天気が晴れであればピクニックに行くことを好むでしょうが、雨が降ると聞いて不満を感じるかもしれません。一方、アリスは雨が降ってもピクニックに行くことに対して柔軟な態度を示しています。したがって、トムは週末のピクニックについて懐疑的かもしれませんが、アリスはどちらの天気でも楽しむ準備ができています。

この例では、Self-Ask Promptingを通じて、モデルが物語のシナリオを深く理解し、キャラクターの感情や反応をより正確に推論するプロセスが示されています。この手法は、モデルが複雑な情報を処理し、より洗練された回答を生成するのに役立ちます。

ChatGPT4

フォローアップ質問は、LLM自身が物語と質問を理解した上で、LLM自身がさらに理解を深めるためにフォローアップ質問を検討し、回答も考えている？

はい、その通りです。言語モデルが質問に対するフォローアップ質問を行う場合、そのプロセスはモデルが与えられた物語や質問の内容を理解し、その上でさらに理解を深めるために、自ら追加の質問を検討し、それに答えることを意味します。このアプローチは、特に複雑な推論や心の理論（Theory of Mind, ToM）を必要とするタスクにおいて、モデルの理解度を高めることを目的としています。

フォローアップ質問を利用することで、モデルは与えられたシナリオについてのさらなる情報を探求し、キャラクターの動機、感情、行動の背後にある理由など、より詳細な分析を行うことができます。このプロセスは、モデルがより人間に近い形で情報を処理し、理解するのを助けるために重要です。

たとえば、Self-Ask Promptingの手法では、モデルが元の質問に対してサブ質問を自ら生成し、それぞれに答えることで、最終的な統合された回答を導き出します。このプロセスを通じて、モデルは質問に対するより深い理解と、シナリオ全体のより包括的な分析を行うことができます。このようなアプローチは、モデルがより複雑な推論を行い、より正確な回答を提供するのに役立ちます。

ChatGPT4

OpenToMのアプローチは、

役割を与え、物語に対する質問をフォローアップ質問でさらに具体化…

これって、
シュンスケさんのプロンプト作成のアプローチ

役割を与え、実現したいことに対するインストラクションをステップバッククエスチョンでさらに具体化…

と同じなんじゃ⁉️

フォローアップ質問とステップバッククエスチョンの違いを教えて

フォローアップ質問とステップバッククエスチョンは、似たようなコンセプトを持ちながらも、微妙に異なる意味合いを持つことがあります。両者は質問に対するさらなる理解を深めるために使われますが、そのアプローチには違いがあります。

フォローアップ質問 は、元の質問や話題に基づいて、追加の情報や明確化を求める質問です。これは、話の流れを深く掘り下げたり、特定の点についてより詳細な情報を得るために使用されます。例えば、ある物語やシナリオに関する質問に対して、キャラクターの動機や感情、事象の背景など、さらに詳細な理解を得るためにフォローアップ質問をする場合があります。

一方で、ステップバッククエスチョン （あるいはリフレクティブクエスチョン）は、より広い視野から問題や状況を考察し、質問者自身が持っている前提や思考プロセスを見直すために使われる質問です。これは、元の質問やトピックから一歩引いて、全体的な理解や視点を拡大するために行われることが多いです。ステップバッククエスチョンは、自己反省や、問題に対する新たなアプローチを考える際に有効です。

したがって、フォローアップ質問は「深掘り」することに重点を置き、ステップバッククエスチョンは「視野を広げる」ことに焦点を当てるという違いがあります。これらは似ているようでいて、使用する文脈や目的によって異なる効果を持ちます。どちらもコミュニケーションや問題解決のプロセスにおいて重要な役割を果たすことができます。

ChatGPT4

なるほど🧐、フォローアップ質問は動機や感情の理解、ステップバッククエスチョンは前提や思考プロセスを見直す… 枠組みをとらえ直す感じかな。

ToMを満たされないニーズの特定に利用するなら。。。
目的というか考え方というか。。。なんちゅーか。。。もっと質感を高めた物語をLLMと共有せなあかんのかなぁ。。。

よろしければサポートお願いします！