【速報】Google Gemini Proの実力拝見
研究開発本部 塩見誠
はじめに
シリーズ投稿から外れますが、2023年12月7日にGoogleより高性能AIモデルGeminiが発表されました。
最初のバージョンであるGemini1.0はUltra、Pro、Nanoの3つのサイズに最適化されていて、Bardにおいて一部のProの機能を試すことができます。
Geminiはマルチモーダルに対応しており、多くの新しい機能を提供していますが、今回はLLMとしての性能をBardでチェックしました。(この記事は、2023年12月7日時点での調査結果です。)
結論
Google Gemini Proは、その回答精度においてGPT3.5に匹敵する性能を示しました。プロンプトの解釈に若干の癖があるように見受けられたものの、使い方の工夫で改善が期待できます。シャープで開発を進めている複数のLLMの連携を特徴とするCE-LLMの一角を担える可能性があります。今後、より精度の高い開発環境を用いて、調査を継続していきたいです。
実験
Geminiの実力評価として、BardにELYZA-tasks-100: 日本語instructionモデル評価データセットのタスクを入力し、その回答を評価、集計しました。この評価データセットは、ELYZA社が公開している言語モデルの評価用データセットで、以下のようなタスクが含まれており、LLMとしての幅広い性能チェックが可能です。
要約を修正し、修正箇所を説明するタスク
具体的なエピソードから抽象的な教訓を述べるタスク
ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク
場合分けを必要とする複雑な算数のタスク
未知の言語からパターンを抽出し、日本語訳する高度な推論を必要とするタスク
複数の指示を踏まえた上でyoutubeの対話を生成するタスク
架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスク
ELYZA社がELYZA-tasks-100を用いて各種LLMを評価した結果はこちらで紹介されています。クローズなLLMとしては、GPT-4がやはり安定したハイスコアを示し、オープンな日本語LLMとしてはELYZA-japanese-Llama-2-7b-instructの検討が目立つようです。
評価実験に入る前に、Gemini各モデルのパラメータ数と特徴をせっかくなのでBardに尋ねました。回答は表1に示します。Googleのテクニカルレポートを見るとNanoモデルは1.8B(Nano-1)と3.25B(Nano-2)の2つのバージョンがあると示されているため、Bardの回答には若干のズレがあります。そのため、Ultra、Proもハルシネーションを引き起こしている可能性がありますが、Ultraに関しては10T程度ありそうとのことで相当な規模のマルチモーダルモデルであることが分かります。
結果
Gemini ProをELYZA-tasks-100で評価した結果を表2に示します(他のモデルは、比較のためこちらの値を使わせて頂きました)。一概には言えませんが、少なくともgpt-3.5に匹敵するスコアが出ました。回答にかかる時間も、体感はそれほど遅くありません。
各タスクの評価は5点満点ですが、念のため、特に成績の悪かったタスクを抜粋して、紹介します。回答が不適切と考えられる入出力パターン(不適切パターン)を2種類示します(表3および表4)。正式バージョン(現在は試験適用中)がBardに搭載されれば解決すると思いますし、不適切パターン2もLLMの改善が進めば減ってくるでしょうから、将来的にはより性能が向上するものと思われます。
まとめ
取り急ぎの評価ではありますが、Google Gemini Proは、LLMとして、ELYZA-tasks-100でGPT3.5に匹敵する性能を示しました。現時点では苦手な質問パターンもあると思われますが、これもLLMの改善が進めば、あるいはプロンプト技術によって回避できる可能性が高いです。 シャープが開発中のCE-LLMで利用するLLMの一角として今後も大いに期待し、調査を継続できればと思います。
(2023/12/15追記)
12/13にAPIが公開され、評価環境としてGoogle AI Studioも利用可能となりました。筆者も簡単に触ってみましたが、多くのプロンプト、パラメータが簡単に試すことができ、レスポンスもよいです。今後に期待します。
参考文献
この記事が気に入ったらサポートをしてみませんか?