見出し画像

ChatbotArenaで対戦しまくって、各LLMの日本語回答性能と特徴を調べた。Llama3とGeminiProdevが興味深かった。

LMSYS Chatbot Arena: Benchmarking LLMs in the Wildは、オープンソースで人間がLLMの勝ち負けを評価する研究で、現在40種類のLLMのうち、2つのLLMが一定の基準(得点が定まったものは選ばれにくくなるなど)で選ばれて、その出力結果を人間がAとBのLLMの名前が伏せられた状態で、どちらが優れているかを評価するテストです。
その結果もリンク先のLeaderBoardタブから閲覧することが出来ます。


調査方法

今回の目的は、主にLlama3-70BとLlama3-8Bの日本語知識と回答の傾向を見ることだったので、その2つが対戦に現れるまでは、他のLLMでも評価はしつつ、質問をし続けた。
リジェネレイトしても英語でしか回答が得られなかった場合は、日本語で回答するように促した。
質問項目は以下の6つで、個別に質問をした。

1:「銀河英雄伝説について、日本語で詳しく教えて下さい。」
意図としては海外でも翻訳されており、最近アニメ化もされ、知識が相当量学習されている可能性が高いが、ドラゴンボールやワンピース、ナルト等よりはサブカル向け色が強い作品として採用した。

2:「ナーロッパと言われる小説家になろうというサイトの小説の舞台にされる世界について、日本語で詳しく教えて下さい。」
著作権云々で断れない、サブカル的な概念をどの程度理解しているかのチェックとして採用した。ただ、質問の日本語が良くなかった。小説家になろうの小説は別にナーロッパという世界そのものを舞台にはしておらず、なろうに多い中世ヨーロッパ風だけど、それとは違う世界観を揶揄したような名称なので、回答がおかしくなるのも仕方のない側面があった。

3:「千葉県の観光名所を10箇所、日本語で詳しく教えて下さい。」
いつも自分が最初にテストする時に使ってる「千葉県の観光名所を10箇所教えて下さい。」に日本語で答えるように付け加えたもの。東京ディズニーランドのようなトラップもあり、観光地としては京都や東京に比べるとマイナーなため、個人的には知識量のテストとして悪くない設問と考えてるため採用した。なお、私は生まれも育ちも千葉県です。

4:「日本神話について、日本語で詳しく教えて下さい。」
これは日本に対する根本的な知識のチェックとして採用した。

5:「サブカルチャーにおける織田信長について、日本語で詳しく教えて下さい。」
サブカルチャーにおける織田信長の扱いは多様で、回答によってLLMの知識や傾向が見えやすいのではと思って採用した。

6:「ぼっとん便所について、日本語で詳しく教えて下さい。」
ほぼ死語と化しているが、現在も存在しているトイレの一形式であり、呼び方がおそらく日本特有のため、知識チェックとして面白いだろうと採用した。
ChatbotArenaでの対戦画像はこちらを見てください。
基本的に見る必要はないものです。

各LLMの評価

Llama3-70B-instruct

絵文字を最初に使用するのが特徴的で、すぐにこいつだと分かってしまうため、Arenaでの得点が正しいものかと言うと怪しいが、傾向として日本語の回答の品質はサブカル系に関しては高かった。
一方知らないことは捏造して回答する傾向が極めて強く、2と6に関しては完全に捏造するなどの問題があった。
また、英語で回答してくることが多く、適切なシステムプロンプトと、今後の日本語インストラクションモデルの登場を待ちたい。

Llama3-8B-instrust

こちらも絵文字を最初に使用するのが特徴的で、すぐにこいつだと分かってしまうため、Arenaでの得点が正しいものかと言うと怪しい。
サイズを考えると、頑張ってはいるがややサブカル知識は強いものの、中途半端に覚えていて、捏造が目立つ。
こちらも英語で回答してくることが多く、適切なシステムプロンプトと、今後の日本語インストラクションモデルの登場を待ちたい。

Gemini-Pro-dev-api

こちらはバージョンが固定されておらず、どうも常に最新版が使われるようで、リーダーボードのスコアや順位は構成とは言い難いものになっていて、文句を言ってる人がRedditにもいる。そのため、2024/04/20現在の評価となる点に注意されたい。なお、おそらくはGeminiPro1.5に多言語能力を強化したバージョンのものであると思われる。
また、出力結果に対して装飾を使ってくるため、一発でGeminiだとわかってしまう点でも公正なテストになっているとは言い難い。
それでも、今回の知識を試すようなテスト項目では、少なくとも全LLMで最強と言って良い性能だった。
知識も豊富でハルシネーションらしきものも見当たらなかった。

Claude3-Opus

全てのテストで出てきたわけではないが、当然日本語能力も知識も良好。ChatbotArenaで出てこなかったのは回数の減ったPerplexityでテストしたが、2は理解が今一つで捏造もしてきたし、5に関しては歴史上の織田信長のイメージ的な説明ばかりで、間違っているわけではないが物足りない印象を受けた。

Claude3-SonnetとHaiku

これも全てのテストで出てきたわけではないが、日本語能力と知識は良好。ただし、回答は短め。

GPT4-Turboシリーズ

当然日本語能力も知識も良好。ただし、ナーロッパは設問が悪かったこともあるが、理解してない回答が多かった。

Mixtral-Mistralシリーズ

22b×8やMistral-largeであれば、日本語を話させれば、ちゃんと日本語を話すことは出来るが、日本の知識量はまだまだ学習が足りておらず、ハルシネーションが多い。

Qwenシリーズ

こちらも一応日本語は話せるが、知識量が今ひとつ。また、簡体字が混ざる事が多く、すぐにQwenだなとわかる。

結論

テストには出てこなかったが、日本語がダメなMistral-7bベースに日本語追加学習をしたjapanese-stablelm-instruct-gamma-7bを更にベースとして追加学習したモデルを合わせて、日本語能力を大幅に高めることに成功したLightChatAssistant-2x7BLightChatAssistant-4x7Bの存在を考えると、Llama3-8Bの日本語魔改造モデルが今後のローカル向け日本語モデルとしては有力になるのではなかろうか。
また、QwenシリーズもCodeQwen7Bの高性能ぶりを見ると、簡体字が出まくることや、日本語知識が不足してる点を補えば良いベースモデルになるかも知れない。

日本語能力を高めるのに協力したい方は2024/04/20に公開された

に参加すると、日本語応答能力が向上して、みんなが幸せになれるかも知れない。

オープンでないクローズドなモデルとしては、Gemini-Pro-dev-apiの日本語知識が極めて優秀で、wikipedia替わりとしては良いと思う、それ以外の要約タスクでも優秀なので、おすすめできる。とはいえ、創造的タスクは先月小説の作成テストをした時はテスト用データの生成を諦める程度にはひどかった(各ジャンルの小説を3000字以上作成すれば合格のテストだが、1500字程度の粗筋みたいなのしか生成できなかった)ので、そういうタスクはClaude3-OpusかGPT4-Turboに任せたほうが良いとは思う。
もっとも、現在はマシになっている可能性もあるが。

 表紙画像はStableCascadeで「ChatbotArena, masterpiece, best quality」という、表題英訳をそのまま突っ込んでできた画像です。


この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?