見出し画像

日本語LLMのベンチマーク:「JGLUE」と「Rakuda Benchmark」

JGLUE(日本語一般言語理解評価)

  • 「JGLUE」は、早稲田大学とYahoo! JAPANが構築・公開したベンチマーク。

  • ベンチマークの具体的な構成については、以下の記事に詳しい。

Nejumi LLMリーダーボード
  • 「JGLUE」では、LLMに短答式・多肢選択式で問題に回答させ、それを機械的に採点する方式をとっている(大学共通テスト/センター試験のようなイメージ)。

  • 英語ベンチマークでも「MMLU」など似たタイプのベンチマークがあるが、この方式ではモデルの文章生成能力は測定できない(ライティングやコーディング、要約などのタスク性能が測れない)という短所がある。

Rakuda Benchmark

  • 「Rakuda Benchmark」はYuzuAIという有志グループが考案・運用しているベンチマーク及びリーダーボード。

  • Nejumi LLMリーダーボード(JGLUE)を見比べると、例えばLlama2-70B(StableBeluga2)が相対的に低く、ja-stablelm-instruct-alpha-7bは相対的に高く評価されている。

  • Rakuda Benchmarkの方が、モデルのパラメータサイズの違いをより素直に反映した順位になっているように見える。

  • ただし、このようなGPT-4を用いた評価手法には、「冗長な(テキストの長い)回答を高く評価しやすい」「GPT-4/GPT-3.5の回答を高く評価しやすい」といった問題点がよく指摘される。

人手による評価

  • 本来であれば、人間による出力評価がモデルの性能を計るのに最適だが、人手に頼るのは基本的にコストが嵩むという問題がある。

  • 海外では、LMSYSによる「Chatbot Arena」が人間によるテキスト評価のプラットフォームとして運営されており有名。

  • なお、冒頭で言及したLINEの公式ブログでは、人手での性能評価についても紹介されていて、「Rakuda Benchmark」の傾向と一部食い違う結果が出たとしている。

  • ベンチマークはあくまで参考であり、自分が実際に利用する用途で性能を確かめるのが大切(だが面倒でもある)。