見出し画像

LLMの評価システムの一つであるイロレーティングに関する論文紹介[Cohere論文紹介No.6]

2024年6月2日 22:14

論文名

Elo Uncovered: Robustness and Best Practices in Language Model Evaluation

arXivリンク

https://arxiv.org/pdf/2311.17295

ひとこと要約

Large Language Models (LLMs)の評価に使われるイロレーティングシステムについて実験的に調査

メモ

事前知識:イロレーティングについて

以下のnoteがわかりやすいです。

実験方法

イロレーティングを用いたLLMの比較評価に類似した2つの合成データを用いて実験

ベルヌーイ過程に基づく合成データ
二項分布に基づく合成データ

実験項目

イロレーティングと順序感度
イロレーティングとハイパーパラメータ(K)
イロレーティングと推移性
- 推移性の特性は、A > B かつ B > C ならば A > C

結果

Eloレーティングと順序について
- 勝率≥0.6の場合、イロレーティングは安定
- 勝率≈0.5の場合、単一の比較順序では不安定
- 比較順序の組み合わせを100以上に増やすことで、安定
ハイパーパラメータ感度
- 特に勝率が0.5に近い場合に、単一の比較順序で不安定
  - この不安定性は、K因子が高いほど顕著に悪化
- パラメータKを高くし、比較順序の組み合わせを100種類以上にすると収束が高速化
推移性
- 推移性が、特に勝率が50％前後の場合に脆弱になる可能性
- パラメータKを高くし、比較順序の組み合わせを100種類以上にすると、ランキングの一貫性が高い

この記事が気に入ったらサポートをしてみませんか？