見出し画像

LLMの評価システムの一つであるイロレーティングに関する論文紹介[Cohere論文紹介No.6]

論文名

Elo Uncovered: Robustness and Best Practices in Language Model Evaluation

arXivリンク

https://arxiv.org/pdf/2311.17295

ひとこと要約

Large Language Models (LLMs)の評価に使われるイロレーティングシステムについて実験的に調査


メモ

事前知識:イロレーティングについて

以下のnoteがわかりやすいです。

実験方法

イロレーティングを用いたLLMの比較評価に類似した2つの合成データを用いて実験

  • ベルヌーイ過程に基づく合成データ

  • 二項分布に基づく合成データ


実験項目

  • イロレーティングと順序感度

  • イロレーティングとハイパーパラメータ(K)

  • イロレーティングと推移性

    • 推移性の特性は、A > B かつ B > C ならば A > C


結果

  • Eloレーティングと順序について

    • 勝率≥0.6の場合、イロレーティングは安定

    • 勝率≈0.5の場合、単一の比較順序では不安定

    • 比較順序の組み合わせを100以上に増やすことで、安定

  • ハイパーパラメータ感度

    • 特に勝率が0.5に近い場合に、単一の比較順序で不安定

      • この不安定性は、K因子が高いほど顕著に悪化

    • パラメータKを高くし、比較順序の組み合わせを100種類以上にすると収束が高速化

  • 推移性

    • 推移性が、特に勝率が50%前後の場合に脆弱になる可能性

    • パラメータKを高くし、比較順序の組み合わせを100種類以上にすると、ランキングの一貫性が高い




この記事が気に入ったらサポートをしてみませんか?