見出し画像

SoraでかすんだGemini Pro 1.5の100万トークン


はじめに


Gemini Pro 1.5の100万トークンは個人的にはSoraよりすごいと思います。Soraの登場ですっかりかすんでいるのが残念です。

Gemini Pro 1.5がかすんだ理由

知り合いと雑談していてGemini Pro 1.5の100万トークンの話がでたとき、初めてGemini Pro 1.5のリリースをフォローできていなかったことを知りました。
なぜだろうと考えたら、そのとき OpenAIのSoraが出ていました。動画生成AIのほうに目を奪われていて、うかつにも見逃していたというわけです。

トークンサイズ競争

トークン数を増やせば当然処理時間もかかりますし精度も落ちます。簡単には上げられないわけす。
従来はAnthropicのClaudeが100Kトークンでリードしていました。
今は、こんな感じです。

  • GPT-4 Turbo: 128Kトークン

  • Claude 2.1: 200Kトークン

  • Gemini Pro 1.5: 1000K トークン

簡単におさらいすると、GPT 3.5は4Kトークン上限でした。2023年3月にGPT 4になって、8Kと32Kの2つのバージョンが提供されました。もともと100Kトークンを売りにしていたClaudeは2023年5月に9Kから100Kトークンに拡大しました。2023年11月にGPT-4 Turboが128Kトークン版をリリースしました。2024年2月にGemini Pro 1.5が1000Kトークンを開発者向けに限定リリースしました。記事によると研究レベルでは10Mトークンも行けるそうです。

100万トークンのインパクト

大規模言語モデルの特徴は非定型の大量情報を読み込んで、コンテクストを理解して対応してくれることです。これはお題目で実際にはAPIのトークンサイズの制限があります。大量の情報は処理できるのですが、APIに渡すときにはトークンサイズ以内に整形しなくてはなりません。
企業向けの応用では4Kトークンとかでは適用域が限定されてしまうので、大規模生成AI処理ではRAG (Retrieval-Augmented Generation) が用いられます。生成AIに与えるデータを細切れにして、関連ありそうなデータ片をいくつか与えてもトークンサイズ制限を超えないようにします。
これにはいろいろ使い勝手の悪いところもあります。例えば、生成AIの評価をするために、与えられたデータから答えられる質問を生成してください、みたいな指示に答えることはできません。まんべんなく質問を生成するには適当にサンプリングしてサンプリングした箇所を答える質問を作ってくれ、のようなひと手間かける必要があります。
1000Kトークン(1M) や10Mトークンはこの面倒くさい部分を取り払ってくれる可能性があります。

がんばれGoogle

仮にGeminiが精度競争でGPTの将来のバージョンに勝てなくても、トークンサイズ競争に参加することは可能です。トークンサイズを拡大するには常に計算機資源が必要です。Googleはそれを豊富に持っているからです。
トークンサイズを拡大すれば精度は落ちる可能性がありますが、精度競争で敗れているのなら、気にする必要もありません。
できるだけデータ全体を一度に処理したいというユースケースはあるので、適用領域を絞って勝負することができると思います。
今回はSoraに話題をさらわれてしまいましたが、企業システムの中で大規模情報処理のニーズは間違いなく動画生成のニーズより大きいと思います。

むすび

Soraのおかげでかすんでいますが、Gemini Pro 1.5がトークンサイズ競争を激化させているのは朗報です。一定の範囲で企業情報処理の開発や運用が簡単になる可能性があります。


参考文献


この記事が気に入ったらサポートをしてみませんか?