MTbenchの質問データを日本語化しました
npaka大先生が必要だということなので、MTbenchの質問データを日本語化しました。
なぜ必要なのかというと、海外の大規模言語モデルはChatbotArenaかMTbenchで性能を測られることが多いのに、日本語のベンチマークは生成系に関しては不十分なテストしかできないためです。
たとえばよく日本語モデルの評価に使われるJ-clueは「日本で一番高い山は?」と聞かれた時に「富士山」と答えるような単純な一問一答の問題しか用意されていません。
そもそも目的は大規模言語モデルのベンチマークではなく外国人が日本文化を理解しているか判定するテストなので生成された文章がどのくらいもっともらしいかを測ることは目的とされていません。
なので、ちゃんと生成された文章の構成があっているかということを評価する必要があります。
MTbenchはある大規模言語モデルに対していくつかのやりとりを行い、その出力結果をGPT-3.5と比較し、GPT-4によって「どっちのやりとりがよりもっともらしいか」を評価するシステムです。
そのためには日本語の評価セットが必要なのですが、ただ直訳しただけだと日本であまり馴染みのない海外ドラマの話題とか、貨幣単位がドルだったりして日本の文化を反映しているとは必ずしも言えないものになっています。
そこでただ翻訳したものと、独自に日本語の文化に根ざした質問のセットをいくつか追加しました。
あとはnpaka大先生がよろしくやってくれるでしょう