Googleの新AIモデル”Gemini”とは

2023年12月7日 23:30

Geminiとは

2023年12月6日に、Googleが新たなAIモデル Gemini を発表しました。Geminiは、テキスト、コード、オーディオ、画像、ビデオなど、さまざまな形式のデータの処理が可能なマルチモーダルモデルです。また、Geminiは、データセンターからモバイルデバイスまで、あらゆるもので効率良く、実行できます。
今回のGemini1.0では、下記3種類のモデルが発表されました。

Gemini Ultra - 最も規模が大きく、かつ最も複雑なタスクを実行できるモデル
Gemini Pro - 幅広いタスクをスケーリングするために最適なモデル
Gemini Nano - on-device向けの最も効率的なモデル。

Geminiの性能

Gemini Ultraは、数学、物理学、歴史、法律、医学、倫理学など57の科目を組み合わせて世界の知識と問題解決能力の両方をテストするMMLU(massive multitask language understanding)において、90.0%のスコアを獲得し、人間の専門家を凌駕するほどのモデルとなりました。

また、マルチモーダルタスクで構成される新しいMMMU(Massive Multi-discipline Multimodal Understanding)ベンチマークで59.4%のスコアを獲得しました。

詳細は、Gemini technical reportをご確認ください。

Geminiがマルチモーダルモデルとして優れている理由

従来のモデルでは、異なるモダリティに対して、別々のコンポーネントをトレーニングし、それらをつなぎ合わせることで、マルチモーダルモデルとして振舞っていました。従来のモデルは、画像の記述などの特定のタスクの実行には適している場合がありますが、より概念的で複雑な推論には適さないことがあります。
一方で、Geminiは、ネイティブにマルチモーダルになるように設計され、最初からさまざまなモダリティで事前にトレーニングされています。さらに、マルチモーダルデータを追加して微調整を行っています。これにより、Geminiはあらゆる種類のインプットをゼロからシームレスに理解し、推論することができるため、ほぼすべての分野において、既存のマルチモーダルモデルよりも優れています。

Geminiでできること

こちらでは、Google DeepMindのHands-on with Geminiで紹介されている内容を共有します。デモの模様はリンク内の動画をご覧ください。

Multimodal Dialogue
- テキスト、音声、画像、動画など、複数の異なるデータ形式を組み合わせて会話を行います。
Multilinguality
- 複数の言語で入出力を行います。
Game Creation
- ゲームの作成を行います。
- Guess the countryというタイトルのゲームが披露されています。Geminiが音声と絵による説明を行い、どこの国を指しているのかをユーザが当てるゲームです。
Visual Puzzles
- 1枚のコインと3つのコップを準備し、1つのコップをコインに覆いかぶせて、3つのコップをシャッフルした際に、どのコップにコインが入っているかを当てるゲームを、ユーザからGeminiに出題して、回答しています。
- また、ユーザが手でグーチョキパーそれぞれの形を作って、それが何を示すかを問い、Gemini回答しています。
Making Connections
- ユーザが、オレンジとクッキー、ルービックキューブとハンドスピナーなどの2物体の組み合わせの関係について問い、Geminiが回答しています。
Image & Text Generation
- ユーザが、2つの毛糸を用意して、そこからなにが作れるかを問い、Geminiが写真と音声で回答しています。
Logic & Spatial Reasoning
- ユーザがとある状況の絵を準備して、Geminiがその空間的な関係性やその状況を理解して、適切な選択や判断を行っています。
Translating Visuals
- ユーザが楽器の絵を描いて、Geminiがそれぞれの楽器に適した音声を生成して、再生します。
Cultural Understanding
- ユーザが、スマホで動画を再生し、Ｇeminiが、そこに映っている人や生物がなにをしているか、またはなにをしようとしているかを推測しています。

この記事が気に入ったらサポートをしてみませんか？