ChatGPTが「心の理論」をもつかどうかはプロンプト次第 / この論文をChatGPTで日本語要約

2023年4月26日 13:19

このTwitter記事が気になりましたので、27ページからなる論文の一部をChatGPTで日本語要約してみました。

GPTが「心の理論」をもつかどうかはプロンプト次第https://t.co/SQrSVjYzo2
ジョンス・ホプキンス大学の研究者らによる報告。
GPT-3.5とGPT-4に心の理論が備わっているかどうかをゼロショット（事前学習なし）でテストしたところ、人間のスコアには及びませんでした。
しかしin-context… pic.twitter.com/uG2Z3ExfjF
— アイブン🎨AI論文データベース (@AIBoom_net) April 25, 2023

概要

GPT-4やGPT-3.5亜種のような大規模言語モデル（LLM）は、多くのタスクで優れていますが、人の思考、信念、目標を理解するような複雑な推論タスクではまだ苦労しています。本研究では、人間の行動を理解するために重要な心の理論（ToM）タスクにおけるこれらのモデルの性能を検証しました。文脈内学習を用い、人間からのフィードバックによる強化学習（RLHF）を用いてモデルを訓練することで、ToMの精度が向上しました。GPT-4が最も優れており、ほぼ80％の精度に達しましたが、それでも87％と人間には及びません。しかし、RLHFで学習したモデルは、適切なプロンプトが与えられると、すべてのモデルが80%を超え、GPT-4は100%を達成しました。これは、適切なプロンプトを使用することで、これらのモデルが人の考えや感情を理解する能力を向上させることができることを示しています。

arXivから引用

1. はじめに

大規模言語モデル（LLM）は多くのタスクで優れていますが、特に「心の理論」ToM推論が必要なタスクではまだ苦労しています。ToM推論とは、人の考えや目標、知っていることを理解することです。これは、社会的な理解、他者との交流、他者の行動の予測に重要です。ToM推論は、主に人間や一部の動物に見られる複雑なスキルです。人や社会的な情報を扱うモデルでは、精神状態や信念を推論できることが有益となります。ToMタスクには、隠れた情報に基づいて推論することも含まれるため、LLMのToMタスクの能力を向上させることで、推論を必要とする他のタスクでより良いパフォーマンスを発揮できる可能性があります。本研究では、適切なプロンプトを使用することで、LLMのToMパフォーマンスを向上させることができるかどうかを検証します。

文脈内学習は、大規模言語モデル（LLM）の推論能力を向上させるのに役立ちます。数発学習はそのようなアプローチの一つで、モデルは重みを更新することなく、推論時に与えられたわずか数個の例から学習することができます。LLMは、「思考連鎖型推論」と呼ばれる、段階的な推論を含む例を与えられると、複雑な推論タスクでより良い結果を得られることが示されています。さらに、LLMにステップバイステップで考えるように指示することで、例題がなくてもパフォーマンスを高めることができます。なぜこのような手法が有効なのか明確な理解は得られていませんが、有用であることは間違いないようです。

LLMが他人の思考や精神状態を理解する「心の理論」ToM推論を行う能力については、これまで議論がなされてきました。LLMのToM能力を支持する研究もあれば、それを疑問視する研究もあります。LLMのToM能力に関するこれまでの評価には、1単語で完結するテストやステップバイステップの推論、例を用いないゼロショットテストなどいくつかの制限がありました。

本研究では、LLMのToM性能を評価することを目的として、ステップバイステップ思考、数発学習、思考連鎖推論などの技法がLLMの能力を高めることができるかどうかを検討してます。これらの技術で推論を向上させることは、追加の訓練や大規模なデータセットを必要とせず、日常の様々なアプリケーションにおいてLLMの信頼性を高めることができるため重要です。

arXivから引用

2. 方法

・モデル
この研究では、OpenAIの最新のGPTモデルであるGPT-4、Davinci-2、Davinci-3、GPT-3.5-Turboの4つを対象としました。これらのモデルはいずれも1000億以上のパラメータを持つ大規模なものです。これらのモデルはいずれも1000億以上のパラメータを持つ大規模なもので、学習方法に若干の違いがあります。Davinci-2はGPT-3.5をベースに、人間が書いたデモで微調整を行ったモデルです。Davinci-3は、Davinci-2をさらに強化学習で学習させたバージョンアップ版です。GPT-3.5-Turboは、ChatGPTの原型となるモデルで、微調整と強化学習の両方を用いて学習させ、会話に最適化したものです。GPT-4は最新モデルで、より人間の意図に沿うように強化学習でより集中的に学習されています。すべてのモデルは、特定の温度と最大テキスト長を設定してテストされました。

・検証
この研究では、ToM (心の理論)、シナリオとPhotoの2種類のシナリオについてAIモデルの理解力を検証しました。ToMシナリオは、ある状況に置かれた人の心理状態を表現し、Photoシナリオは、人のいないシーンを表現しています。彼らは、ToMに関わる脳領域に注目した先行研究から、16のToMシナリオと16のPhotoシナリオを使用しました。人間の参加者は、以前の研究でも今回の実験でも、どちらのタイプのシナリオでも同じレベルの精度を有していました。参加者は、各シナリオを18秒間で読み、理解度の質問に自分のペースでYesかNoをクリックして回答しました。両方のタイプのシナリオを混合して各参加者にランダムに提示したところ、ToMシナリオ（87％）Photoシナリオ(86%)で同様の精度を示しました。

・精度測定
この研究では、簡単なシナリオを読んだ後の理解度質問に対するAIモデルの回答精度を測定しました。各プロンプトは、パフォーマンス履歴が含まれないことを確認しながら、すべてのモデルに対して20回実行し、モデルの回答の信頼性を測定しました。精度は、320問（16シナリオ×20回繰り返し）のうち、正解の割合と定義しました。

各モデルのパフォーマンスを評価するため、研究者は各プロンプトに対する回答を分析し、手動で回答をチェックし、正解または不正解のラベルを付けました。回答が正しい結論を持っているか、複数の妥当な回答の中に正しい理由が含まれている場合、正解とみなされました。また、結論が正しくない場合や結論が出ない場合は、不正解としました。

arXivから引用

3. 結果

本研究では、写真とToM（Theory of Mind）シナリオにおけるAIモデルのゼロショット性能（タスクのために特別に訓練されていない状態での性能）を比較しました。写真シナリオでは、新しいモデルほど精度が向上し、GPT-4が最も高い性能を示しました。しかし、ToMシナリオでは、新しいモデルで一貫して精度が向上しませんでした。Davinci-2はDavinci-3やGPT-3.5-Turboよりも精度が高かったですが，GPT-4が最も性能が高く，他のすべてのモデルよりも有意に優れていました。GPT-3.5-Turboの精度が低かったのは、質問に答えるのに十分な情報がないとして、結論の出ない回答をすることが多かったことが主な理由です。全体として、GPT-4は写真とToMの両シナリオで最も優れたゼロショット性能を発揮しました。

arXivから引用

もっと詳しいことを知りたいという方は、下記のサイトにこの論文記事(PDF)がありますので、そちらを翻訳してみてください( ^ω^ )

この記事が参加している募集

#AIとやってみた

36,796件

この記事が気に入ったらサポートをしてみませんか？