気になる生成AI備忘録-vol.11-

2024年3月26日 10:37

■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた備忘録を共有する連載シリーズです。

より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。

今回紹介するのは、Evaluate LLMs in real time with Street Fighter III(ストリートファイターIIIでLLMをリアルタイム評価)です。

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA
— Stan Girard (@_StanGirard) March 24, 2024

まず、こちらのＸのポストですが、日本語にすると

LLMコロシアムのご紹介！
ストリートファイターIIIでLLMをリアルタイムに戦わせることで、LLMのクオリティを評価！
最強はどっち？ OpenAIとMistralAI？
戦わせてみよう！オープンソースコードとランキング

といった意味合いになります。

LLMコロシアム：ストリートファイターでLLMをリアルタイムで評価とは？

▼概要
OpenGenerativeAIチームが作成した「LLMコロシアム」と呼ばれるプロジェクト。

LLM (Large Language Model) とは、大きな言語モデルのことで、テキスト生成や翻訳などができる AI モデルのことです。（わかりやすく言うと、ChatGPTで知られるGPT-4や、GoogleのLaMDAなどがLLMになります）

「LLMコロシアム」プロジェクトでは、ストリートファイターIIIを使って、複数のLLMをリアルタイムで戦わせ、どのLLMが最強の格闘家になるかを競わせるとうものです。

戦わせるといっても、何をもって、何を基準にというのが気になりますが、仕組みをわかりやすくまとめると、以下の通りです。

▼仕組み

LLMとゲーム画面: 各LLMは、ストリートファイターIIIのゲーム画面をテキストで描写された情報を受け取ります。
思考と行動: LLMは受け取った情報に基づいて、次の行動を決定します。具体的には、キャラクターの移動、攻撃、防御などのコマンドを生成します。
リアルタイム対戦: 複数のLLMが同時にゲームをプレイし、互いに戦います。
勝敗判定: ゲームのルールに基づいて勝敗を判定します。体力ゲージがなくなったプレイヤーが負けとなります。

▼評価基準

LLMの強さは、以下の5つの基準で評価されます。

速度: リアルタイムゲームなので、素早い決断が求められます。
戦略: 状況に応じて最適な戦略を立てられるか。
創造性: 予想外の動きで相手を翻弄できるか。
適応力: 過去の経験から学び、戦術を修正できるか。
安定性: 長時間のゲームを通して高いパフォーマンスを維持できるか。

※LLMなので、人間のようにゲームをプレイするわけではなく、あくまでゲーム画面の情報に基づいて行動を選択するだけ

公開されている情報では、実験で342回の戦いが行われ、各LLMは以下のようなELOスコアを持っているとのこと。

ELOスコアとは、Elo rating（イロレーティング）のことです。

プレイヤーの強さを表す指標といえばわかりやすいでしょうか。（元々はチェスのプレイヤー評価でしたが、現在は様々な対戦型競技で使用されています）

そして、LLMコロシアムの勝率マトリックスは次のようになっています。

GitHubに掲載されている勝率マトリックスですが、
行: 各行は、特定のLLMを表します。
列: 各列は、別のLLMを表します。
交差: 行と列が交差するセルは、行のLLMが列のLLMに対して勝利した割合を表します。

例えば、一番左下のセルは、model_1 （openai:gpt-4 1106-preview）が model_2 （mistral:mistral-medium-latest）に対して勝利した割合を表します。この場合、model_1 が model_2 に対して 75% の確率で勝利していることがわかります。

0は、ランダムな対戦において、どちらのLLMも勝利する可能性がないことを意味し、1は、100％ということになります。

このプロジェクト、"LLMコロシアム"ですが、従来の強化学習モデルとは異なり、LLMはゲーム画面を理解し、状況に応じて行動を選択することができる＝LLMの環境理解能力と状況適応能力を評価する、革新的なベンチマーク手法、というのが、このプロジェクトの意義のようです。

開発段階につき、将来的な展開等は具体的にはわかりませんが、より多くのLLMの参加、新しいゲームタイトルの採用（ストリートファイター以外の）などは展開としてあるのかなと。

個人的には、単純に、LLMの進化を促進し、AI技術の発展に貢献する可能性を秘めたプロジェクトとなる試みだとは感じました。

「LLMコロシアム」は、言ってしまえばある種単純ではあるものの、発想として非常に面白いアイデアだなと感じました。

LLM開発者にとっては情報源や分析、一般層にとってはLLM技術を理解する1つのきっかけにもなるのかなと。

今回は、OpenGenerativeAIチームが独自に開発したプロジェクト"LLMコロシアムプロジェクト"について、備忘録としてアウトラインにざっと触れました。

気になる方はGitHubから実際にチェックしてみるといいでしょう。

この記事が気に入ったらサポートをしてみませんか？