Googleの新AIモデル”Gemini”とは
Geminiとは
2023年12月6日に、Googleが新たなAIモデル Gemini を発表しました。Geminiは、テキスト、コード、オーディオ、画像、ビデオなど、さまざまな形式のデータの処理が可能なマルチモーダルモデルです。また、Geminiは、データセンターからモバイルデバイスまで、あらゆるもので効率良く、実行できます。
今回のGemini1.0では、下記3種類のモデルが発表されました。
Gemini Ultra - 最も規模が大きく、かつ最も複雑なタスクを実行できるモデル
Gemini Pro - 幅広いタスクをスケーリングするために最適なモデル
Gemini Nano - on-device向けの最も効率的なモデル。
Geminiの性能
Gemini Ultraは、数学、物理学、歴史、法律、医学、倫理学など57の科目を組み合わせて世界の知識と問題解決能力の両方をテストするMMLU(massive multitask language understanding)において、90.0%のスコアを獲得し、人間の専門家を凌駕するほどのモデルとなりました。
また、マルチモーダルタスクで構成される新しいMMMU(Massive Multi-discipline Multimodal Understanding)ベンチマークで59.4%のスコアを獲得しました。
詳細は、Gemini technical reportをご確認ください。
Geminiがマルチモーダルモデルとして優れている理由
従来のモデルでは、異なるモダリティに対して、別々のコンポーネントをトレーニングし、それらをつなぎ合わせることで、マルチモーダルモデルとして振舞っていました。従来のモデルは、画像の記述などの特定のタスクの実行には適している場合がありますが、より概念的で複雑な推論には適さないことがあります。
一方で、Geminiは、ネイティブにマルチモーダルになるように設計され、最初からさまざまなモダリティで事前にトレーニングされています。さらに、マルチモーダルデータを追加して微調整を行っています。これにより、Geminiはあらゆる種類のインプットをゼロからシームレスに理解し、推論することができるため、ほぼすべての分野において、既存のマルチモーダルモデルよりも優れています。
Geminiでできること
こちらでは、Google DeepMindのHands-on with Geminiで紹介されている内容を共有します。デモの模様はリンク内の動画をご覧ください。
Multimodal Dialogue
テキスト、音声、画像、動画など、複数の異なるデータ形式を組み合わせて会話を行います。
Multilinguality
複数の言語で入出力を行います。
Game Creation
ゲームの作成を行います。
Guess the countryというタイトルのゲームが披露されています。Geminiが音声と絵による説明を行い、どこの国を指しているのかをユーザが当てるゲームです。
Visual Puzzles
1枚のコインと3つのコップを準備し、1つのコップをコインに覆いかぶせて、3つのコップをシャッフルした際に、どのコップにコインが入っているかを当てるゲームを、ユーザからGeminiに出題して、回答しています。
また、ユーザが手でグーチョキパーそれぞれの形を作って、それが何を示すかを問い、Gemini回答しています。
Making Connections
ユーザが、オレンジとクッキー、ルービックキューブとハンドスピナーなどの2物体の組み合わせの関係について問い、Geminiが回答しています。
Image & Text Generation
ユーザが、2つの毛糸を用意して、そこからなにが作れるかを問い、Geminiが写真と音声で回答しています。
Logic & Spatial Reasoning
ユーザがとある状況の絵を準備して、Geminiがその空間的な関係性やその状況を理解して、適切な選択や判断を行っています。
Translating Visuals
ユーザが楽器の絵を描いて、Geminiがそれぞれの楽器に適した音声を生成して、再生します。
Cultural Understanding
ユーザが、スマホで動画を再生し、Geminiが、そこに映っている人や生物がなにをしているか、またはなにをしようとしているかを推測しています。
この記事が気に入ったらサポートをしてみませんか?