見出し画像

【衝撃】GPT-4oも苦戦! 生成AIは小説の理解力がかなり低い事が判明!?


はじめに

ChatGPTなどの大規模言語モデル (LLM) の目覚ましい発展により、数百万トークンもの長文を一度に処理できるモデルが登場しました。膨大な情報を扱えるようになった一方で、これらのモデルは本当に長文を「理解」し、文脈に基づいた高度な「推論」を実行できるのでしょうか?

従来のベンチマークでは測れない、そんな疑問を探求した論文が登場しました。

従来型ベンチマークの限界

従来の大規模言語モデル(LLM)の評価方法、例えば「干し草の中の針を探す」(NIAH)タスクは、文章単位での検索能力を測るものでした。しかし、現実の応用では、本全体の内容を理解し、そこから複雑な結論を導き出す能力が必要です。

NIAHのようなタスクでは、LLMは指定されたキーワードを含む文章を見つけ出すことはできても、登場人物の関係性や物語全体の伏線、作品に込められたテーマなどを理解しているとは言えません。

このような限界を克服し、AIの真の言語理解能力を評価するためには、より高度で包括的なベンチマークが必要不可欠でした。

NOCHA:小説理解のための革新的ベンチマーク

LLMの小説理解能力を真に評価するために、研究者はNOCHA(A Novel Challenge)という革新的なデータセットを開発しました。NOCHAは、近刊の英語小説67冊について、人間の読者が作成した1,001組の真偽判定問題から構成されています。

人間にとっては決して難しい事はなく、小学校の国語のテストでやったような内容です。

LLMに小説を読ませた上で出題。

「ソニアは、トレイの妹で陶芸家のアンナと、トレイの従弟であるオーウェン•プールと親しくなり、失われた花嫁たちの謎を解くことになる?」

『正しい』or『間違い』

問題例

NOCHAの設計思想:

  • 人間の読者による問題作成: 表面的なキーワード検索ではなく、深い内容理解と推論が必要となるように、人間の読者が小説の内容に基づいて問題を作成しました。これにより、AIの真の理解力を測ることが可能になります。

  • 近刊小説の活用: モデルの事前学習データに含まれていない可能性が高い近刊の小説を使用することで、事前の知識ではなく、実際に文脈を理解する能力を評価できます。

  • 最小限の差異: 真の主張と偽の主張の差を最小限にすることで、モデルが「間違った理由で正解」する可能性を排除し、真の理解度を測ります。これにより、LLMが推論過程で本当に文脈を考慮しているかを厳密に評価できます。

  • グローバルな推論の要求: 問題の多くは、本全体の内容を理解し、文脈を総合的に判断しなければ解答できないように設計されています。登場人物の行動や発言の意図、伏線の回収、テーマの解釈など、人間のように深く物語を理解する能力が求められます。

※この続きや日々更新される記事の全文は、個別購入以外にnoteにて月額550円の『メンバーシップ』への加入でも読むことができます。

実験結果:AIと人間の能力差が明らかに

ここから先は

1,393字 / 2画像
この記事のみ ¥ 100
期間限定 PayPay支払いすると抽選でお得に!

この記事が気に入ったらサポートをしてみませんか?