もはや生成AI（LLM）はドラゴンボール状態

2024年3月7日 07:18

わけの分からないタイトルをつけてしまいました。こちらのニュースを読んだからです。

ようは、
Claude3はGPTを超える性能を記録した、
という話です。

つまり、
最近の生成AIは、既存のボス級だった戦闘力を桁違いに超え続ける漫画「ドラゴンボール」のようだ、
ということです。

ドラゴンボール主人公「孫悟空」の戦闘力遍歴を表にしたサイトを見つけました。このたとえがピンとこない方はご笑納ください。

あまりガシガシ生成AIを触らない人はベンダーの数が多すぎて混乱しているかもしれません。

主要LLM（大規模言語モデル）ベンダー勢力図を載せておきます。（2月24日作成）あくまでベンダー絞り込みは著者の恣意的なものです。（ただ最低限ユニコーン企業ではあります）

今回話題となったAnthropic社は、上図の通りGoogle・Amazonからも出資を受けており、そもそも設立者はOpenAIのエンジニアでした。

で、今回そのAIチャットClaude（クロードと呼びます）３が、業界ベンチマークでいくつかGPT4を超えたということが話題を呼んでいます。

以前に、生成AIのベンチマークについてはふれたので該当記事を載せておきます。

そして、今回の比較表です。

GPT4だけでなく、最近バージョンアップの激しいGoogleのGeminiすら凌駕しています。

Calude3が取り扱えるトークン数（人間でいう短期記憶量）は最大20万です。

GPTは約13万で、Geminiは最大100万トークンを提供する予定（限定ユーザっぽい）です。

仮にベンチマークが正しいとすると、もはやトークン数はそこまで影響を与えないのかもしれません。

もっと言えば、もしかしたら今の性能比較勝負は、もはや私のような一般ユーザ（とはいえヘビーに使ってるとは思う）では白黒つけれないほど超インフレ化している気がしています。

冒頭にふれたドラゴンボールに例えると、戦闘力が10億から100億（はじめは10！）になってもどう強くなったのか分からないように。

自分自身も、ChatHUBを使って主要ベンダー比較はしていますが、この数週間でもその評価がグラグラと揺らいでいます。（ただ、確率的にみると、やはりChatGPTが安定的）

例えば、
「複数の生成AIを評価する方法を教えてください。英語で考えて出力は日本語で分かりやすく教えてください。」
とプロンプトを複数の生成AI（ChatGPT、Bing、Gemini、Perplexity、Claude、Mixtral）に投げてみます。

関心がある方はクリックして大画面で見てください。少なくとも私の観点では（一部はともかく）各生成AIの出力を見て良しあしを判断することは困難でした。

さらには、プロンプトの内容によって、各生成AIで向き不向きもありそうな感覚です。

しばらくは主要な生成AIサービスは試し続けようとは思います。が、ほどほどのお付き合いにしないと、本末転倒になりかねないとも感じた今日この頃です。

この記事が気に入ったらサポートをしてみませんか？