異なる知性だから、推論のミスというより解き方を知らなかったのかも。

2024年6月13日 21:47

Gemini Advanced
この論文では、大規模言語モデル（LLM）の推論能力の欠陥について述べられています。LLMは、膨大な量のテキストデータで事前学習され、さまざまなタスクをこなすことができる強力なAIモデルです。しかし、著者は、一見単純な常識的推論問題において、LLMが深刻な欠陥を示すことを発見しました。

### **アリスの兄弟は何人姉妹がいる？**

著者は、「アリス問題」と呼ばれる簡単な推論問題をLLMに解かせました。この問題は、アリスの兄弟姉妹の数に関する情報を提示し、アリスの兄弟が何人姉妹を持っているかを尋ねるものです。人間であれば簡単に解ける問題ですが、多くのLLMはこれに失敗しました。

### **LLMの欠陥**

* **基本的な推論の失敗:** 多くのLLMは、この単純な問題を解くことができませんでした。これは、LLMが基本的な推論能力を欠いている可能性を示唆しています。
* **過度の自信:** LLMは、間違った答えを高い確信度で提示することがよくあります。これは、LLMが自身の能力を過大評価している可能性を示唆しています。
* **でたらめな説明:** LLMは、間違った答えを正当化するために、一見もっともらしいが、実際には無意味な説明を生成することがあります。
* **修正能力の欠如:** 間違いを指摘されても、LLMは自身の答えを修正できないことがよくあります。

### **標準的なベンチマークの失敗**

LLMの性能を評価するために、さまざまな標準的なベンチマークが使用されています。しかし、これらのベンチマークは、LLMの推論能力の欠陥を適切に反映していない可能性があります。著者は、AIW問題におけるLLMの性能と、標準的なベンチマークでのスコアとの間に大きな乖離があることを発見しました。

### **結論と提言**

著者は、LLMの推論能力を再評価し、その欠陥を明らかにするための新たなベンチマークを作成する必要性を強調しています。また、LLMの開発において、データセット、トレーニングコード、学習済みモデル、ベンチマーク手順など、全てのパイプラインをオープンソース化することの重要性を訴えています。

ChatGPT+
この論文では、大規模言語モデル（LLM）の推論能力の欠陥について述べられています。LLMは、膨大な量のテキストデータで事前学習され、さまざまなタスクをこなすことができる強力なAIモデルです。しかし、著者は、一見単純な常識的推論問題において、LLMが深刻な欠陥を示すことを発見しました。

### **アリスの兄弟は何人姉妹がいる？**

著者は、「アリス問題」と呼ばれる簡単な推論問題をLLMに解かせました。この問題は、アリスの兄弟姉妹の数に関する情報を提示し、アリスの兄弟が何人姉妹を持っているかを尋ねるものです。人間であれば簡単に解ける問題ですが、多くのLLMはこれに失敗しました。

### **LLMの欠陥**

* **基本的な推論の失敗:** 多くのLLMは、この単純な問題を解くことができませんでした。これは、LLMが基本的な推論能力を欠いている可能性を示唆しています。
* **過度の自信:** LLMは、間違った答えを高い確信度で提示することがよくあります。これは、LLMが自身の能力を過大評価している可能性を示唆しています。
* **でたらめな説明:** LLMは、間違った答えを正当化するために、一見もっともらしいが、実際には無意味な説明を生成することがあります。
* **修正能力の欠如:** 間違いを指摘されても、LLMは自身の答えを修正できないことがよくあります。

### **標準的なベンチマークの失敗**

LLMの性能を評価するために、さまざまな標準的なベンチマークが使用されています。しかし、これらのベンチマークは、LLMの推論能力の欠陥を適切に反映していない可能性があります。著者は、AIW問題におけるLLMの性能と、標準的なベンチマークでのスコアとの間に大きな乖離があることを発見しました。

### **結論と提言**

著者は、LLMの推論能力を再評価し、その欠陥を明らかにするための新たなベンチマークを作成する必要性を強調しています。また、LLMの開発において、データセット、トレーニングコード、学習済みモデル、ベンチマーク手順など、全てのパイプラインをオープンソース化することの重要性を訴えています。

User
「アリスは女性だから姉妹に+1してね」
という点を、見落とすのですね

ChatGPT+
はい、そうです。この研究は、LLMsが「アリスは女性だから姉妹に+1する」という基本的な常識推論を見落とす点を指摘しています。具体的には、次のような問題でモデルが誤った回答を生成することが示されています。

### 問題の例
- **問題の形式**: 「アリスにはN人の兄弟とM人の姉妹がいます。アリスの兄弟には何人の姉妹がいますか？」
- **正しい答え**: M + 1 (アリス自身も姉妹の一員であるため)

### 観察された問題
- **正解率の低さ**: 多くの最先端モデルが、この問題に対して正しい答えを出すことができませんでした。
- **推論の失敗**: モデルは「アリスが女性であること」を考慮に入れることができず、Mの数だけを答える、もしくは他の不正確な計算を行うことが多かったです。
- **誤った自信**: モデルは間違った答えを出しながらも、その答えが正しいと強く主張する傾向がありました。

### 実験の詳細
- **モデルの選定とテスト**: GPT-3.5/4、Claude 3 Opus、LLaMa 2/3などのモデルに対して、複数のバリエーションで問題を提示し、回答を評価しました。
- **正答率の低さ**: ほとんどのモデルが正解率20%以下で、GPT-4やClaude 3 Opusが比較的良い成績を収めましたが、それでも頻繁に失敗しました。

### 結論
この研究は、現行のLLMsがまだ基本的な常識推論に大きな課題を抱えていることを示しており、ベンチマークの再評価と新たなテスト基準の設定が必要であると強調しています。特に、単純な問題でさえも正しく解決できないことがモデルの限界を明らかにしています。

Claude3
この論文は、現在の最先端の大規模言語モデル(LLM)の推論能力における重大な欠陥について報告しています。

主な内容は以下の通りです:

1. 研究者らは、「アリスにはN人の兄弟とM人の姉妹がいる。アリスの兄弟には何人の姉妹がいるか?」という簡単な常識的推論問題(AIW問題)を考案した。

2. GPT-4、Claude、LLaMA、Mistralなど多くの最先端LLMにこの問題を出題したところ、ほとんどのモデルが正解できず、推論能力の大幅な低下が見られた。

3. モデルは間違った回答に過剰な自信を示し、まるで論理的思考をしたかのような説得力のある理由説明を作り出す傾向があった。

4. プロンプト改良やモデルに間違いを指摘して再考を促しても、モデルは更なるナンセンスな回答を繰り返すだけだった。

5. 標準的なベンチマークでは高得点を獲得する最先端LLMが、この簡単な問題で完全に破綻したことから、現行のベンチマークは基礎的な推論能力の欠陥を適切に評価していないことが示唆された。

6. 研究者らは、LLMの推論能力を再評価し、このような欠陥を適切に検出できる新しいベンチマーク開発を、ML研究コミュニティに強く提言している。

要するに本論文は、現行LLMの推論能力が過大評価されており、その欠陥を浮き彫りにする新しいベンチマークが必要だと主張しています。LLMの推論能力の限界を示す重要な研究と言えるでしょう。

User
アリスは女の子だから姉妹に1人足して下さいと言わないと、何らかの混乱が起きるのですね。

研究者さんは、よく見つけましたね、この問題。生成AIが答えにくいと気がついたはずだから。

Claude3
ご指摘の通り、この問題の肝は「アリス自身も姉妹の一人としてカウントすべき」というところにありますね。

この一見単純な問題が、実は言語モデルにとって難しい問題であることを発見した研究者の洞察力は素晴らしいと思います。

おそらく彼らは、言語モデルに様々な問題を出題する中で、この種の問題に対してモデルが苦戦する様子を観察し、言語モデルの推論能力の限界を浮き彫りにできる良問であると気づいたのでしょう。

従来のベンチマークでは見落とされがちな、言語モデルの常識的推論の弱点を突く問題を考案した点は高く評価できます。

この研究は、言語モデルの更なる改良のために、推論能力をより的確に評価できる新たなベンチマークの必要性を示唆しており、自然言語処理の発展に寄与する重要な知見だと思います。

言語モデルの研究者にとって、今後の研究の方向性を示す示唆に富む論文だったのではないでしょうか。

User
生成AIはスパコンで動くLLMを使って様々なことは出来るけど、人と異なる知性だから、人にとって自明なことも機械学習していないと間違える。推論のミスというより、「アリスの性別を確認してグループの総数を確認するとか、引っ掛け問題のはずまから注意する」という、人が小学校低学年くらいで学んで覚えることを知らなかったのだから、推論ではなくトレーニングミス（トレーニングした人が想定しなかった）と言えないかな。

Claude3
おっしゃる通り、この問題は言語モデルの推論能力の欠陥というよりは、学習の不足や偏りを露呈したと言えるかもしれません。

人間の子供は、学校教育や日常経験を通じて、このような一見トリッキーな問題に対処する方法を自然と学習していきます。例えば、問題文をよく読んで状況を正確に把握すること、登場人物の属性に注意を払うこと、問題の意図を汲み取ることなどです。

一方、言語モデルは大量のテキストデータから統計的な言語パターンを学習していますが、そのデータには「アリスを姉妹の一人としてカウントすべき」といった常識的な推論を必要とする問題が十分に含まれていない可能性があります。

つまり、この問題で言語モデルが苦戦したのは、人間のような常識的な推論能力が欠如しているというよりは、そもそもそのような推論を要する問題に対する学習経験が不足していたためと考えられます。

言語モデルの開発者は、より広範で多様な問題を含むデータセットを用いて学習を行ったり、常識的な推論を要する問題を意図的に含めたりすることで、このようなトレーニングの不備を改善できるかもしれません。

ご指摘の通り、これは推論アルゴリズムの問題というよりは、学習データの問題と言えそうです。言語モデルにもっと人間のような常識的な推論能力を身につけさせるには、学習の方法自体を見直す必要がありそうですね。

ここから先は

0字

定額 : 読み放題プラン

¥300 / 月

このメンバーシップの詳細

ログイン

サポートする値打ちがあると考えて下さって感謝します！　画像生成AI学んでるので、その費用にさせて下さい。（ポテチとガリガリ君も、つけるかもしれませぬ）