【衝撃】GPT-4oも苦戦！生成AIは小説の理解力がかなり低い事が判明！？

2024年6月30日 16:04

はじめに

ChatGPTなどの大規模言語モデル (LLM) の目覚ましい発展により、数百万トークンもの長文を一度に処理できるモデルが登場しました。膨大な情報を扱えるようになった一方で、これらのモデルは本当に長文を「理解」し、文脈に基づいた高度な「推論」を実行できるのでしょうか？

従来のベンチマークでは測れない、そんな疑問を探求した論文が登場しました。

従来の大規模言語モデル（LLM）の評価方法、例えば「干し草の中の針を探す」（NIAH）タスクは、文章単位での検索能力を測るものでした。しかし、現実の応用では、本全体の内容を理解し、そこから複雑な結論を導き出す能力が必要です。

NIAHのようなタスクでは、LLMは指定されたキーワードを含む文章を見つけ出すことはできても、登場人物の関係性や物語全体の伏線、作品に込められたテーマなどを理解しているとは言えません。

このような限界を克服し、AIの真の言語理解能力を評価するためには、より高度で包括的なベンチマークが必要不可欠でした。

LLMの小説理解能力を真に評価するために、研究者はNOCHA（A Novel Challenge）という革新的なデータセットを開発しました。NOCHAは、近刊の英語小説67冊について、人間の読者が作成した1,001組の真偽判定問題から構成されています。

人間にとっては決して難しい事はなく、小学校の国語のテストでやったような内容です。

LLMに小説を読ませた上で出題。

「ソニアは、トレイの妹で陶芸家のアンナと、トレイの従弟であるオーウェン•プールと親しくなり、失われた花嫁たちの謎を解くことになる？」

『正しい』or『間違い』

問題例

人間の読者による問題作成: 表面的なキーワード検索ではなく、深い内容理解と推論が必要となるように、人間の読者が小説の内容に基づいて問題を作成しました。これにより、AIの真の理解力を測ることが可能になります。
近刊小説の活用: モデルの事前学習データに含まれていない可能性が高い近刊の小説を使用することで、事前の知識ではなく、実際に文脈を理解する能力を評価できます。
最小限の差異: 真の主張と偽の主張の差を最小限にすることで、モデルが「間違った理由で正解」する可能性を排除し、真の理解度を測ります。これにより、LLMが推論過程で本当に文脈を考慮しているかを厳密に評価できます。
グローバルな推論の要求: 問題の多くは、本全体の内容を理解し、文脈を総合的に判断しなければ解答できないように設計されています。登場人物の行動や発言の意図、伏線の回収、テーマの解釈など、人間のように深く物語を理解する能力が求められます。

※この続きや日々更新される記事の全文は、個別購入以外にnoteにて月額550円の『メンバーシップ』への加入でも読むことができます。

1,393字 / 2画像

この記事のみ ¥ 100

期間限定 PayPay支払いすると抽選でお得に！

■ 友の会とは会員の皆さまには、AIの最新動向や活用事例をお届けし、共に学び合える場を提供いたしま…

¥550 / 月

初月無料

この記事が気に入ったらサポートをしてみませんか？