見出し画像

【論文瞬読】オープンソースの評価言語モデル「PROMETHEUS 2」登場!複数の評価方式に対応し、人間レベルの評価を実現

こんにちは!株式会社AI Nestです。
みなさん、こんにちは。今回は、自然言語処理の分野で注目を集めている「PROMETHEUS 2」という評価言語モデルについてご紹介します。PROMETHEUS 2は、他の言語モデルの出力を評価するために特化したオープンソースのモデルで、直接評価と一対比較という2つの評価方式に対応しているのが大きな特徴です。

Figure1, 弱い評価モデルと強い評価モデルのスコア相関を示す図。PROMETHEUS 2が強い評価モデルグループに属していることがわかります。

タイトル:Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
URL:https://arxiv.org/abs/2405.01535
所属:KAIST AI, LG AI Research, Carnegie Mellon University, MIT,
Allen Institute for AI, University of Illinois Chicago
著者:Seungone Kim, Juyoung Suk, Shayne Longpre, Bill Yuchen Lin, Jamin Shin, Sean Welleck, Graham Neubig, Moontae Lee, Kyungjae Lee, Minjoon Seo

既存の評価言語モデルの問題点

これまでのオープンソースの評価言語モデルには、いくつかの問題点がありました。まず、人間の評価との相関が低いという点です。言語モデルの出力を評価する際、最終的には人間の判断に近づけることが理想ですが、既存のモデルはそれを十分に達成できていませんでした。

Table1, FEEDBACK COLLECTIONとPREFERENCE COLLECTIONのデータセット統計。PROMETHEUS 2の学習に用いられたデータセットの特徴を理解するのに役立ちます。

また、直接評価と一対比較の両方の評価方式に対応していないという問題もありました。タスクによって適した評価方式は異なるため、複数の方式に柔軟に対応できるモデルが求められていたのです。

さらに、独自の評価基準に基づいた評価ができないという制限もありました。評価の目的や対象に応じて、評価基準をカスタマイズできることは重要ですが、既存のモデルにはその機能が備わっていませんでした。

PROMETHEUS 2の特徴

PROMETHEUS 2は、これらの問題点を解決するために開発されました。まず、直接評価と一対比較の両方の評価方式に対応しています。直接評価では、言語モデルの出力に対して絶対的なスコアを付与します。一方、一対比較では、2つの出力を比較して、どちらがより優れているかを判断します。PROMETHEUS 2は、これらの評価方式を柔軟に切り替えられるのです。

また、PROMETHEUS 2は、人間の評価や独自言語モデルの評価との高い相関を示すことができます。これは、直接評価と一対比較のデータで別々に学習したモデルの重みを統合するという手法を用いることで実現しています。この重み統合アプローチにより、各評価方式に特化したモデルの長所を組み合わせ、人間に近い評価を可能にしているのです。

さらに、PROMETHEUS 2は、独自の評価基準に基づいた評価も可能です。評価基準をカスタマイズすることで、タスクや目的に応じた最適な評価を行うことができます。

性能評価実験

PROMETHEUS 2の性能を検証するために、8つのベンチマークを用いた評価実験が行われました。直接評価用のベンチマーク4つ、一対比較用のベンチマーク4つが選ばれ、既存の評価言語モデルとの比較が行われました。

Table2, 評価実験で使用されたベンチマークの統計。ベンチマークの多様性と網羅性を示しています。
Table3: 直接評価ベンチマークにおける、評価モデルとGPT-4およびClaude-3-Opusとのピアソン相関係数。PROMETHEUS 2が他のオープンソースモデルを上回る性能を示しています。
Table4, 一対比較ベンチマークにおける、評価モデルと人間の評価の一致率。PROMETHEUS 2が他のオープンソースモデルを上回り、GPT-4との性能差を半減させていることを示しています。

実験の結果、PROMETHEUS 2は全てのベンチマークにおいて既存モデルを上回る性能を示しました。特に、人間の評価との相関については、既存モデルを大きく引き離す結果となりました。これは、PROMETHEUS 2が人間に近い評価を行えることを示す重要な証拠といえます。

重み統合の効果

PROMETHEUS 2の開発過程で特に興味深いのは、重み統合という手法の効果です。重み統合は、直接評価と一対比較のデータで別々に学習したモデルの重みを組み合わせる手法ですが、これが共同学習 (joint training) よりも優れた性能をもたらすことが明らかになりました。

重み統合の効果が単なるアンサンブル効果によるものではないことも、実験的に確認されています。また、直接評価の学習が一対比較の性能向上に与える影響と、その逆の影響の大きさが異なることも議論されました。

Figure3: 直接評価と一対比較の学習データの混合比率(α値)を変化させた際の性能への影響。両方のデータを用いることの重要性と、タスク間の正の転移があることを示唆しています。

これらの知見は、評価言語モデルの設計における重要な指針となるでしょう。

おわりに

PROMETHEUS 2は、オープンソースの評価言語モデルの発展に大きく貢献する重要な研究成果です。直接評価と一対比較への対応、人間レベルの評価との高い相関、独自の評価基準のサポートなど、既存モデルの問題点を解決し、評価言語モデルの可能性を大きく広げるものといえます。

今後、PROMETHEUS 2がさまざまな分野で活用され、言語モデルの評価の質の向上につながることが期待されます。自然言語処理のタスクにおいて、より信頼性の高い評価が行えるようになれば、言語モデルの開発もさらに加速するでしょう。

PROMETHEUS 2は、GitHubで公開されているので、興味のある方はぜひチェックしてみてください。言語モデルの評価に携わる研究者や開発者にとって、重要なツールの一つになると思います。

以上、PROMETHEUS 2についての紹介でした。言語モデルの評価という重要な課題に取り組む、画期的な研究だと感じました。自然言語処理の分野で、PROMETHEUS 2がどのような影響を与えていくのか、楽しみですね。