【論文瞬読】LLMの限界を超える！？人間の読解プロセスを模倣した「ReadAgent」がすごい

2024年5月24日 16:38

こんにちは！株式会社AI Nestです。
最近何かと話題のLLM（Large Language Model）ですが、「文章が長すぎると処理できない」って弱点、知ってました？

そう、LLMにも限界はあるんです！

そこで今回は、そんなLLMの弱点を克服するべく、人間の読解プロセスを模倣した新しい技術「ReadAgent」をご紹介。 Google DeepMindの研究チームが発表した論文を読み解きながら、その仕組みと可能性を探っていきましょう！

タイトル：A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts
URL：https://arxiv.org/abs/2402.09727
所属：Google DeepMind, Google Research
著者：Kuang-Huei Lee, Xinyun Chen, Hiroki Furuta, John Canny, Ian Fischer

LLMの「長文読解」における課題

まずは、LLMが抱える「長文読解」の壁について。

LLMは大量のテキストデータを学習し、人間顔負けの文章生成能力を獲得しました。しかし、どんなに賢いLLMでも、一度に処理できる情報量には限界があります。例えば、小説を丸々一冊入力して要約させようとしても、うまくいかないことが多いんです。

これは、LLMが文章を単語の羅列として処理しているため。人間のように、文脈を理解し、重要なポイントを記憶しながら読む、ということが苦手なんです。

人間の読解プロセスを模倣した「ReadAgent」

そこで登場するのが「ReadAgent」。

ReadAgentは、人間が長文を読む時に、自然と行っているプロセスをLLMで再現することで、長文読解を可能にする技術です。

具体的には、以下の3つのステップで構成されています。(図1参照)

文章の要約 (gisting): 長い文章をいくつかのセクションに分割し、LLMを用いて各セクションの要約を作成します。この要約を「gist」と呼び、gistを集めたものを「gist memory」と呼びます。
インタラクティブな情報検索 (interactive look-up): 質問を受け取ると、ReadAgentはgist memoryを参照し、関連性の高いセクションを特定します。必要であれば、原文の該当箇所をインタラクティブに参照することで、より詳細な情報を取得します。
回答生成: 取得した情報に基づいて、LLMが質問に対する回答を生成します。

従来のLLMは、長文を入力すると重要な情報を見失いがちでしたが、ReadAgentはgist memoryを参照することで文脈を把握し、必要な情報を効率的に検索することができます。

例えるなら、gist memoryは、私たちが本を読む時に頭の中に作る「目次」のようなもの。 ReadAgentは、この目次を頼りに、膨大な情報の中から必要な部分だけを効率的に探し出すことができるんです！

ReadAgentの実力

論文では、ReadAgentの実力を検証するため、3つの長文読解タスクを用いた実験が行われました。一例として、QuALITYデータセットでの実験結果を見てみましょう。(表1参照)

Table1. PaLM2-Lを使用した、230のドキュメントと2086の問題からなる開発セットのQuALITYの結果と2086問のPaLM 2-Lを用いたQuALITYの結果。CRは圧縮率。# LUは検索回数です。我々は 3回の実行の平均と標準偏差を報告する。CRと# LUの標準偏差は、表示上の理由から省略した。

この表から、ReadAgentが「Full Raw Content(全文を利用)」や「Retrieval(検索ベースライン)」といったベースラインよりも高い精度を達成していることがわかります。つまり、ReadAgentは従来の手法よりも、より正確に質問に答えられるということです！

まとめ｜ReadAgentの登場はLLM進化の鍵となるか？

今回は、人間の読解プロセスを模倣した新しいLLM技術「ReadAgent」をご紹介しました。

ReadAgentは、従来のLLMが苦手としていた長文読解を可能にするだけでなく、LLMの可能性を大きく広げる可能性を秘めています。今後、ReadAgentをベースにした、より高度な読解エージェントが登場することで、私たちの生活はさらに便利で豊かなものになっていくかもしれません。

今後のLLMの進化、そしてReadAgentの動向から目が離せません！