見出し画像

もはや生成AI(LLM)はドラゴンボール状態

わけの分からないタイトルをつけてしまいました。こちらのニュースを読んだからです。

ようは、
Claude3はGPTを超える性能を記録した、
という話です。

つまり、
最近の生成AIは、既存のボス級だった戦闘力を桁違いに超え続ける漫画「ドラゴンボール」のようだ、
ということです。

ドラゴンボール主人公「孫悟空」の戦闘力遍歴を表にしたサイトを見つけました。このたとえがピンとこない方はご笑納ください。

あまりガシガシ生成AIを触らない人はベンダーの数が多すぎて混乱しているかもしれません。

主要LLM(大規模言語モデル)ベンダー勢力図を載せておきます。(2月24日作成)あくまでベンダー絞り込みは著者の恣意的なものです。(ただ最低限ユニコーン企業ではあります)

今回話題となったAnthropic社は、上図の通りGoogle・Amazonからも出資を受けており、そもそも設立者はOpenAIのエンジニアでした。

で、今回そのAIチャットClaude(クロードと呼びます)3が、業界ベンチマークでいくつかGPT4を超えたということが話題を呼んでいます。

以前に、生成AIのベンチマークについてはふれたので該当記事を載せておきます。

そして、今回の比較表です。

冒頭記事内の図

GPT4だけでなく、最近バージョンアップの激しいGoogleのGeminiすら凌駕しています。

Calude3が取り扱えるトークン数(人間でいう短期記憶量)は最大20万です。

GPTは約13万で、Geminiは最大100万トークンを提供する予定(限定ユーザっぽい)です。

仮にベンチマークが正しいとすると、もはやトークン数はそこまで影響を与えないのかもしれません。

もっと言えば、もしかしたら今の性能比較勝負は、もはや私のような一般ユーザ(とはいえヘビーに使ってるとは思う)では白黒つけれないほど超インフレ化している気がしています。

冒頭にふれたドラゴンボールに例えると、戦闘力が10億から100億(はじめは10!)になってもどう強くなったのか分からないように。

自分自身も、ChatHUBを使って主要ベンダー比較はしていますが、この数週間でもその評価がグラグラと揺らいでいます。(ただ、確率的にみると、やはりChatGPTが安定的)

例えば、
「複数の生成AIを評価する方法を教えてください。英語で考えて出力は日本語で分かりやすく教えてください。」
とプロンプトを複数の生成AI(ChatGPT、Bing、Gemini、Perplexity、Claude、Mixtral)に投げてみます。

ChatHubで同時出力したもの(一部英語出力のみ対応)

関心がある方はクリックして大画面で見てください。少なくとも私の観点では(一部はともかく)各生成AIの出力を見て良しあしを判断することは困難でした。

さらには、プロンプトの内容によって、各生成AIで向き不向きもありそうな感覚です。

しばらくは主要な生成AIサービスは試し続けようとは思います。が、ほどほどのお付き合いにしないと、本末転倒になりかねないとも感じた今日この頃です。

この記事が気に入ったらサポートをしてみませんか?