見出し画像

最強のAIチャットボットを決めようとしている「Chatbot Arena」をみんなに触ってほしい(ユーザー登録不要)

Chatbot Arenaってご存知ですか?
Chatbot Arenaは大規模言語モデル(LLM)を人間の好みに基づいて評価するバトル形式のオープンプラットフォームです。
ユーザーはざまざまなモデルと対話し、どちらのモデルがより良い応答をしたか投票することで、モデル間のランキングが形成されるというもの。

これが触ってみると意外と差異があるものだな〜と感心したので記事にまとめました。

👇から試せます!ユーザー登録不要というのも嬉しい点。
https://chat.lmsys.org/

UIはこんな感じです

ルールは超簡単です。

📜ルール
・2つの匿名モデル (ChatGPT、Claude、Llama など) に質問をして、より良いモデルに投票してください。
・勝者を特定するまで、複数ターンチャットできます。
・会話中にモデルの身元が明らかになった場合、投票はカウントされません。

公式の説明より

通常のアリーナでは「モデルA」「モデルB」とAIの名前は伏せられてバトルが始まります。
より良い返答ができる方に投票をしていくスタイルです。

シンプル〜

タブはほかにもArena(side-by-side)やDirect Chat等もあります。

タブが6個

side-by-sideでは自分で選んだチャットボットで比較ができるので、自分好みのAIを見つけることもできそう。

これはhaikuとgpt3.5のバトル

ちなみに、Chatbot Arenaでは、Elo評価システムを使用しているみたいで、これはチェスなどの競技ゲームで広く採用されている評価システムで、プレイヤー間の相対的なスキルレベルを計算する方法とのこと。

Chatbot Arenaは透明性とコミュニティの参加を重視して、評価プロセスやランキングの計算方法などが公開されていて、他の人々が分析を再現したりプロセスを理解することが可能とのことで、最近このchatbot arenaのレーティングの変化を動画にした人がいたので紹介しておきます。

この方がいうには、
1. さまざまな企業/オープンソース プロジェクト間のギャップが縮まっている
2. 主要プレーヤーは徐々に大手テクノロジー企業になりつつある
とのこと。

また、”Chatbot Arenaは新しいLLMのプレビューテストにも利用され、オープンソースまたは商用のモデルプロバイダーが新しいモデルをコミュニティに提供することができる”とあります。
モデルが正式にリリースされる前に匿名でフィードバックを収集し、評価することが可能というのは企業にとっては嬉しい話。

そのせいなのでしょうか?このChatbot Arenaには謎の高性能AIモデルがあり、これがいま騒がれているGPT-4.5かGPT-5なんじゃないかとザワザワしていました。

すでに800,000 を超える人間の投票を集めているChatbot Arena。
leaderboardにて結果もしっかり載せています。

綺麗なグラデ

計算方法など詳しくはarXivの論文からご確認ください。

ということで、Chatbot ArenaのLLMでとりあえずラインキング上位に入っているものは現状間違いないでしょう。
こういうLLMを順次比較していると、自分の好みとかをみつけるために触ってみたり、違いを感じるのっていろんな選択肢を持つためにやっぱり大事だあと思いました。
また、こういう投票が進むことでAIが進化していくことの手助けになっていくので、積極的にわたしも評価していきたいなと思いました。
今日はここまで〜(勉強になった)

この記事が気に入ったらサポートをしてみませんか?