【速報】Google Gemini Proの実力拝見

2023年12月15日 17:55

研究開発本部　塩見誠

はじめに

シリーズ投稿から外れますが、2023年12月7日にGoogleより高性能AIモデルGeminiが発表されました。
最初のバージョンであるGemini1.0はUltra、Pro、Nanoの3つのサイズに最適化されていて、Bardにおいて一部のProの機能を試すことができます。
Geminiはマルチモーダルに対応しており、多くの新しい機能を提供していますが、今回はLLMとしての性能をBardでチェックしました。（この記事は、2023年12月7日時点での調査結果です。）

結論

Google Gemini Proは、その回答精度においてGPT3.5に匹敵する性能を示しました。プロンプトの解釈に若干の癖があるように見受けられたものの、使い方の工夫で改善が期待できます。シャープで開発を進めている複数のLLMの連携を特徴とするCE-LLMの一角を担える可能性があります。今後、より精度の高い開発環境を用いて、調査を継続していきたいです。

実験

Geminiの実力評価として、BardにELYZA-tasks-100: 日本語instructionモデル評価データセットのタスクを入力し、その回答を評価、集計しました。この評価データセットは、ELYZA社が公開している言語モデルの評価用データセットで、以下のようなタスクが含まれており、LLMとしての幅広い性能チェックが可能です。

要約を修正し、修正箇所を説明するタスク
具体的なエピソードから抽象的な教訓を述べるタスク
ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク
場合分けを必要とする複雑な算数のタスク
未知の言語からパターンを抽出し、日本語訳する高度な推論を必要とするタスク
複数の指示を踏まえた上でyoutubeの対話を生成するタスク
架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスク

ELYZA社がELYZA-tasks-100を用いて各種LLMを評価した結果はこちらで紹介されています。クローズなLLMとしては、GPT-4がやはり安定したハイスコアを示し、オープンな日本語LLMとしてはELYZA-japanese-Llama-2-7b-instructの検討が目立つようです。

評価実験に入る前に、Gemini各モデルのパラメータ数と特徴をせっかくなのでBardに尋ねました。回答は表1に示します。Googleのテクニカルレポートを見るとNanoモデルは1.8B（Nano-1）と3.25B（Nano-2）の2つのバージョンがあると示されているため、Bardの回答には若干のズレがあります。そのため、Ultra、Proもハルシネーションを引き起こしている可能性がありますが、Ultraに関しては10T程度ありそうとのことで相当な規模のマルチモーダルモデルであることが分かります。

結果

Gemini ProをELYZA-tasks-100で評価した結果を表2に示します（他のモデルは、比較のためこちらの値を使わせて頂きました）。一概には言えませんが、少なくともgpt-3.5に匹敵するスコアが出ました。回答にかかる時間も、体感はそれほど遅くありません。

各タスクの評価は5点満点ですが、念のため、特に成績の悪かったタスクを抜粋して、紹介します。回答が不適切と考えられる入出力パターン（不適切パターン）を2種類示します（表3および表4）。正式バージョン（現在は試験適用中）がBardに搭載されれば解決すると思いますし、不適切パターン2もLLMの改善が進めば減ってくるでしょうから、将来的にはより性能が向上するものと思われます。

表3　不適切パターン1
事実をに基づいて適切に論理を積み上げる問題に勘違い傾向がある。

表4 不適切パターン2
仮定の話、論理的でない話に対して、事実の問い合わせと勘違いしている？

まとめ

取り急ぎの評価ではありますが、Google Gemini Proは、LLMとして、ELYZA-tasks-100でGPT3.5に匹敵する性能を示しました。現時点では苦手な質問パターンもあると思われますが、これもLLMの改善が進めば、あるいはプロンプト技術によって回避できる可能性が高いです。シャープが開発中のCE-LLMで利用するLLMの一角として今後も大いに期待し、調査を継続できればと思います。

(2023/12/15追記)
12/13にAPIが公開され、評価環境としてGoogle AI Studioも利用可能となりました。筆者も簡単に触ってみましたが、多くのプロンプト、パラメータが簡単に試すことができ、レスポンスもよいです。今後に期待します。

参考文献

この記事が気に入ったらサポートをしてみませんか？