LLMが予測集約の単純で実用的な方法を通じて、人間の群衆予測トーナメントと匹敵する予測精度を達成できることを示唆しています!!
タイトル:
英語: Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy
日本語: シリコンの群衆の知恵: LLMアンサンブルの予測能力は人間の群衆の精度に匹敵する
雑誌名 & 発行年:
未記載
著者:
First author: Philipp Schoenegger
Last author: Philip E. Tetlock
所属:
London School of Economics
アブストラクト: 人間の予測精度は「群衆の知恵」の効果に依存しており、個々の予測者の集約によって未来の出来事に関する予測が大幅に改善されます。過去の研究では、大規模言語モデル(LLM)の予測能力が個々の予測者としては人間の群衆予測トーナメントの集約と比較して劣ることが示されています。研究1では、12のLLMから成るアンサンブルを用いて、3か月の予測トーナメントで925人の人間の予測者の群衆と比較しました。事前登録された主要な分析では、LLMの群衆が単純な情報なしのベンチマークを上回り、人間の群衆と統計的に差がないことが示されました。探索的分析では、これら2つのアプローチが中程度の効果サイズの等価境界に関して同等であることが見出されました。研究2では、LLMの予測(GPT-4とClaude 2)が人間の認知出力によって改善されるかどうかを検証しました。これにより両モデルの予測精度が向上しましたが、単純に人間と機械の予測を平均化するよりも精度は低下しました。私たちの結果は、LLMが予測集約の単純で実用的な方法を通じて人間の群衆予測トーナメントと匹敵する予測精度を達成できることを示唆しています。
背景: 人間の予測は「群衆の知恵」の効果に依存していますが、大規模言語モデル(LLM)の予測能力に関する過去の研究では、個々の予測者としては人間の群衆と比較して劣っているとされています。
方法: この研究では、12のLLMからなるアンサンブルを使用し、各予測の中央値を計算して人間の群衆の予測と比較しました。研究2では、GPT-4とClaude 2のモデルを使用し、人間の群衆の中央予測に曝露させ、予測を更新させました。
結果: LLMの群衆は、人間の群衆と比較して統計的に有意な差はなく、中程度の効果サイズで同等であることが示されました。GPT-4とClaude 2は人間の中央予測に曝露することで予測精度が向上しました。
議論: この研究は、LLMが人間の群衆と競合する予測精度を達成する可能性を示しており、予測集約の単純な方法が効果的であることを示唆しています。
先行研究との比較での新規性: 過去の研究と比較して、本研究ではアンサンブルを用いることで、個々のLLMの限界を克服し、群衆の予測と同等の成果を上げる方法を確立しました。
限界: この研究の限界は、主に実験デザインが予測トーナメントに限定されている点です。実際の多様なシナリオでの適用性についてはさらなる検証が必要です。
潜在的な応用: この研究の結果は、政治、経済、技術などの実世界の予測において、LLMを使用する実用的な方法を提供する可能性があります。
この記事が気に入ったらサポートをしてみませんか?