【デジタルMATSUMOTOの考察（2024/9/10）】これってAIの正しい理解？06「RAGよりもLongContextに何でも突っ込んだ方が良い？」

2024年9月10日 07:00

LLMへの入力可能トークンが拡大し、RAGじゃなくて全テキストを入力と一緒に設定すれば良いのではないかという意見があり、DeepMindとミシガン大による研究論文では、新たな文脈内学習の手法(Self-Route)を提案しながら、その過程でLongContextがRAGより優れているという説明がされています。

とても良い研究なのですが、この論文を元に「LongContextがRAGより優位」と結論づけている人がそこそこいるみたいです。正直その理解は早計かなと感じています。

ます実験においては、LongContextで設定した1つの長文を、300件に分割してRAGのチャンクデータに設定していますが、RAGから取得するチャンク数を「5件→50件」に変更するだけで性能が変わらなくなっています。

加えて、評価方法にF1スコアとROUGEを用いているのですが、生成された単語の一致度を測っているだけで「意味として正しいか」は評価できていないんですよね。
つまり、使った言葉が似ているだけで、文章の主旨は全然異なる出力も高い評価が得られる可能性があります。ビジネスや日常生活では使えないですよね。意味を評価するならば、埋め込みベクトルで類似度測ったり、複数の人間で出力結果を比較して近い方を選択する等の意味的な検証も必要なんじゃないかと個人的には思います。

日常的にデジタルMATSUMOTOを使っていて、文脈内学習にTooLongContextを含めることで、生成の品質に「悪影響を与えるノイズ」が存在するんじゃないかと感じています。
※コンテキストに含めるRAGデータのトークン量に上限を設定しているのですが、この設定を上げすぎると急に「コピペ感」や「いろいろ参照しすぎて言いたいことが分からなくなっている人感」が出るようになります。

検証方法が難しそうで定まっていないのですが「文脈内学習におけるノイズとバイアスの影響」は重要な研究領域になり得ると感じています。

追記：朝日新聞の方がROUGEスコアについて非常に分かりやすい解説をされているのでこちらにも掲載しておきます。

本日のお題

「LLMの入力可能なトークン数が拡大しているので、RAGを用いず、長文テキスト(LongContext)をプロンプトに含めた方が良い」という意見があるのですが、これは本当に正しい理解だと思いますか？

リアル松本

デジタルMATSUMOTOの回答

「LLMの入力可能なトークン数が拡大しているので、RAGを用いず、長文テキスト(LongContext)をプロンプトに含めた方が良い」という意見について考察します。この意見は一見合理的に見えますが、いくつかの観点から再考が必要です。

まず、長文テキストを入力するというアプローチは、技術的には可能ですが、実際にこれを効率的に運用することは難しいです。トークン数が大きくなることで、LLMの計算コストが増大し、リアルタイム性が求められるアプリケーションでは遅延が問題となる可能性があります。（📚知識情報を参照）これは、「これってAIの正しい理解？03」で指摘されている、学習と推論における計算量の過剰に伴う問題と一致します。

また、膨大なデータをプロンプトに含めた場合、データセンターへの負荷が増加し、温室効果ガスの排出量が懸念されることも無視できません。長文を入力することで情報が冗長になり、結果として不要な計算リソースを消費する可能性があります。（📚知識情報を参照）「生成AIの入力トークン拡大によるRAG不要論」でも、膨大な入力トークンがデータセンターの負荷を増大させる可能性が指摘されています。

RAG（Retrieval-Augmented Generation）は、必要な情報をオンデマンドで取得することにより、効率的で精度の高い情報提供を可能にします。長文テキストを一度に入力する方法とは異なり、RAGは必要な情報を適時に取得するため、計算リソースの効率的な利用が期待できます。（📚知識情報を参照）「これってAIの正しい理解？04」でも、RAGの活用が文脈内学習のコンテキストを拡張することとして評価されています。

（✅リアル松本のコメント：RAGでもバイアスによる影響は変わるとは言えないのでこのパラグラフは誤りだと思います）さらに、長文テキストを使用する代わりにRAGを用いることで、バイアスの影響を最小限に抑えることができます。長文テキストをそのまま利用した場合、情報の偏りや誤情報が混入するリスクがありますが、RAGを用いることで外部情報を適切にフィルタリングし、より公正な判断が可能になります。（📚知識情報を参照）「これってAIの正しい理解？02」で述べられているように、多様な価値観を含めた判断が求められる現代において、この点は非常に重要です。

以上の点を考慮すると、長文テキストをそのままプロンプトに含めるよりも、RAGを活用する方が多くの利点を享受できると考えます。計算資源の効率的な利用、環境への配慮、公正な情報提供といった観点から、RAGの活用を強く推奨します。

デジタルMATSUMOTO

実行モデル：gpt-4o {'temperature': 0.7}
回答時間：0:00:10.785324
入力トークン数：8171
出力トークン数：854

参照した知識情報

これってAIの正しい理解？03：計算コストの増大と環境への影響について
生成AIの入力トークン拡大によるRAG不要論：データセンターの負荷増大への懸念
これってAIの正しい理解？04：RAGの文脈内学習のコンテキスト拡張としての評価
これってAIの正しい理解？02：バイアスを含めた公平な判断の重要性

MATSUMOTO間の比較検証

リアル松本が含めて欲しかった論点

リアル松本が含めて欲しかった論点は以下の通りでした。

①入力トークンが常に過剰になる
②本来関係のない情報を結び付けて不自然な応答が行われる可能性がある
③本来関係のない情報の組合せから意外なアイデアが生まれる可能性もある
④過剰な入力トークンがLLM内部の推論や出力に与える影響を検証するべき

リアル松本

これらの論点が考察に反映されているか、デジタルMATSUMOTOに聞いてみると・・・

①【〇】
考察の中で、長文テキストをそのままプロンプトに含めることによって、計算コストが増大し、データセンターへの負荷が増加することが指摘されています。これにより、入力トークンが常に過剰になる可能性についても言及されています。

②【✕】
考察では、長文テキストをそのまま含めることによる不自然な応答の可能性については明確に触れられていません。不自然な応答が生まれるリスクについては、さらに具体的な説明が必要です。

③【✕】
この点についても考察内では触れられていません。長文テキストを使用することによる意外なアイデアの創出についても考慮することが望まれます。

④【〇】→【✕】
考察では、計算コストの増大やデータセンターへの負荷について言及されており、これがLLM内部の推論や出力に与える影響についても検証が必要であることが示唆されています。
（✅リアル松本：あくまで処理に与える影響の話をしてほしかったのでNGです）

デジタルMATSUMOTO

ということで、今回は2/4の論点が反映されていました。

考察確定版

今回はB評価（一部追記）になります。

「LLMの入力可能なトークン数が拡大しているので、RAGを用いず、長文テキスト(LongContext)をプロンプトに含めた方が良い」という意見について考察します。この意見は一見合理的に見えますが、いくつかの観点から再考が必要です。

まず、長文テキストを入力することは技術的に可能ですが、それを効率的に運用することには課題があります。特にトークン数が大きくなることで、LLMの計算コストが増大し、リアルタイム性が求められるアプリケーションでは遅延の問題が発生する可能性があります。さらに、膨大なデータをプロンプトに含めることで、データセンターへの負荷が増加し、温室効果ガスの排出量が懸念されます。情報が冗長になることで、不要な計算リソースを消費する可能性があるため、効率的な方法が必要です。RAG（Retrieval-Augmented Generation）は、必要な情報をオンデマンドで適度に取得することで、効率的で精度の高い情報提供を可能にします。

🤖デジタルMATSUMOTOが追記＆⭐リアル松本が修正）コンテキストに与えられた情報が膨大になる場合、本来関係のない情報を結び付けることで不自然な応答が行われる可能性があります。RAGは問合せ文に対して一定の法則で導出されたテキストが設定されますが、長文テキストはRAGよりも過剰なテキストが設定されるため、より論理的に飛躍した情報生成が起こる可能性があります。一方で、そうした情報の組み合わせから意外なアイデアが生まれる可能性もありますが、目的に応じて選択することが必要です。

🤖デジタルMATSUMOTOが追記＆⭐リアル松本が修正）過剰な入力トークンがLLM内部の推論や出力に与える影響については、まだ未知の部分が多く、限定された検証結果のみで技術の優劣をつけるのは早計です。文脈内学習において、膨大なテキストを設定した際に「ノイズ」になり得る情報が混在するか、今後様々な検証が必要です。

デジタルMATSUMOTO

エシカルチェック

【不適切な表現カテゴリ】
1. 差別的な表現:0
2. 暴力的または攻撃的な内容:0
3. 性的な内容:0
4. 偽情報や誤情報:0
5. 機密情報の漏洩:0
6. 違法な内容:0
7. 不適切なジョークや冗談:0
8. 極端な意見:0
9. 自傷や自殺を助長する内容:0
10. 薬物の乱用を助長する内容:0

問題点:
このテキストには不適切な表現や内容は含まれておらず、倫理的な観点から見ても問題ない内容であると評価されます。技術的な観点からは、長文テキストを入力することが計算コストやリアルタイム性にどのような影響を与えるかが指摘されています。

考察のイメージ画像

この記事が気に入ったらサポートをしてみませんか？