Googleの生成AI「Gemini」とは?ChatGPTとの性能比較も解説!
Googleが生成AI「Gemini Ultra」を2024年2月8日に提供開始し、各製品に搭載すると発表しました!すでに提供開始されている下位モデルの「Gemini Pro」や「Gemini Nano」に比べ、Gemini Ultraは同社で最も高性能なAIモデルだとされています。※2024年2月現在
そこで本記事では、「Google Geminiって?」「Google Geminiの性能は?」「Google Geminiはどんなことができるの?」といった疑問にまとめてお答えします!現在、生成AIの主流であるChatGPTとの違いや、性能比較なども紹介しているので、ぜひ最後まで読んでみてください!
Goolge Geminiとは
「Gemini」とは、Googleが開発したマルチモーダル(複数のデータ形式や手段を組み合わせること)生成AIで、「ジェミニ」や「ジェミナイ」と読みます。
これまでは画像やテキストを元に、新しい画像やテキストを生成するモデルが主流でしたが、マルチモーダル生成AIモデルは、音声や動画、プログラミングコードなども理解し、組み合わせることで結果を出力するといったことも可能になっています。
GoogleがGeminiのデモ動画を日本語字幕で公開しているので興味のある方はこちらもあわせて見てみて下さい!
https://youtu.be/UIZAiXYceBI?si=nB7MWwpmCR5xoPQC
特徴1:ネイティブマルチモーダル
Geminiは、テキストや画像、音声などを組み合わせて出力する「ネイティブマルチモーダル」な生成AIモデルです。わかりやすく例えると、人が匂いや温度、見た目などから目の前の料理を判断するように、さまざまな要素から「総合的な判断」を行うことが可能となっています。
特徴2:オンデバイス処理
Geminiは、ローカルのデバイス上だけでマルチモーダル処理が可能です。オンライン通信でデータの送受信が不要なため、スムーズな動作が期待できます。
これには、Google謹製のスマホやAndroidOSをはじめ、家電や自家用車など、なるべくオフラインで実行したいようなものにも向いているといえます。
特徴3:コード生成も可能
さまざまなプログラミング言語を理解しているため、より素速く高品質なコード生成が可能なことも大きな強みです。
これによって、仕事やプライベートでより高度な情報処理を、プログラミング知識が無い人でもできるようになります。
Geminiの3つのモデルと利用料金
Geminiの初期バージョンでは、つぎの3つの種類が用意されており、使用目的によって使い分けることが可能です。
Gemini Nano
「Gemini Nano(ジェミニ ナノ)」は、個人向けデバイス上でも効率的に動作するよう設計されたモデルです。Googleは初のGemini AI搭載スマホとして「Google Pixel 8 Pro」も発表しています。
外部のサーバーに接続しなくても、メールの文章やテキスト要約といった身近なタスクを実行可能です。
Gemini Pro
「Gemini Pro(ジェミニ プロ)」は、より広範囲のタスクに対応した汎用型のAIモデルです。
試験用に提供されていた旧モデル「Google Bard」に取って代わるかたちで実装され、Bardと同じ感覚で利用可能となっているほか、APIも提供されており、開発用キット「Google AI Studio」を通じてGemini Proを使ったアプリを作ることもできます。
Gemini Ultra
「Gemini Ultra(ジェミニ ウルトラ)」は、これまで解説したようにマルチモーダルに対応した最も高性能なAIモデルです。テキストや画像のほか、音声、動画、プログラミングコードなど、さまざまな要素から総合的に判断しタスクを実行します。
それぞれの要素の理解度を測定した32項目の業界ベンチマークのうち30項目で、これまでのどのAIモデルよりも高いスコアをマークし、最高水準と評価されています。
Geminiの利用料金は?
![](https://assets.st-note.com/img/1710249691977-Id7mrHdRyr.png?width=800)
![](https://assets.st-note.com/img/1710250068953-DdIDp63x6s.png?width=800)
Geminiの有料プランは「Gemini Advanced」という名前です。利用するためには、Googleのストレージサービス「Google One」に新設された「Google One AIプレミアム プラン」に加入する必要があります。
※Gemini Advancedに入らなくても、一般的なGeminiは利用可能です!
料金は月額2,900円で、登録から2カ月間は無料です。Google Oneと連携されているため、最大2TBのストレージが利用できるほか、オフィススイート「Google Workspace」や「Google フォト」といったGoogleアプリの有料版なども利用可能です。
https://one.google.com/about/plans?hl=ja
Geminiの使い方
ここからはGeminiの使い方を紹介します。利用開始から代表的な機能まで解説しているので、ぜひ参考にしてみてください!
Gemini AdvancedかGoogle Oneのトップページにアクセス
はじめに、Gemini AdvancedかGoogle Oneのトップページにアクセスし、2,900円のプランを選択しましょう。
2カ月間は無料なので、「トライアルを開始」を選択し、お使いのGoogleアカウントとクレジットカードを登録します。すでに紐づいている人は、そのまま「定期購入」をクリックすることで利用開始です。
https://gemini.google.com/advanced?hl=en
Gemini AdvancedはBardやGoogle検索と似た使用感
Gemini AdvancedはWebブラウザからそのまま利用できます。中央に検索窓が設けられ、テキストや画像、動画ファイルなどを入力してプロンプト(指示)を伝えることで、結果を出力してくれます。
Google検索や旧Bard、ChatGPTといったAIモデルと似たような使用感です。
Gemini Advancedでできること
試しに、「Gemini Advancedでできることは?」といったように入力すると、Gemini Advancedでできることを出力してくれます。
長文要約や翻訳、校正や編集、質問や回答の生成といった基本的なことのほかに、Google検索エンジンを通じた情報検索、データ分析、コーディング、写真から住所や建物の特定といったことまで可能です。
旧Bardよりも長い文章や重いデータファイル、複雑なタスクを、素早い速度で処理可能です。
ChatGPT(GPT-4)とGeminiの比較
ここではChatGPT(GPT-4)とGeminiを性能面から比較した様子を紹介します。
https://deepmind.google/technologies/gemini/#gemini-1.0
HellaSwag以外のすべてでChatGPTを上回るスコア
次の画像は、生成AIで必要な各要素をChatGPT(GPT-4)とGeminiで比較した表です。「HellaSwag(一般的な知識や常識を利用して物語の続きを予測するタスク)」以外のすべてでChatGPTを上回っています。
![](https://assets.st-note.com/img/1710250108641-zDOMvu39y5.png?width=800)
General(全般的な性能の比較)は90%を上回っています。評価に用いられたのはMMLU(理数・人文科学の知識と問題解決能力)では、各分野の専門的なスキルを持つ人を超えています。
![](https://assets.st-note.com/img/1710250120651-3bBuCeE6Ya.png?width=800)
ほかにも、ドキュメント処理能力「DocVQA」が90.9%、音声からテキストに変換する能力「CoVoST2」の40.1%などにも注目です。
AIモデルのトレーニング方法の違い
ChatGPT(GPT-4)とGeminiでは、トレーニング方法にも違いがあります。
ChatGPTは、テキストや画像、音声など、要素ごとに別々のモデルを用意してトレーニングします。トレーニングされた各モデルを繋ぎ合わせて、ひとつのマルチモーダルモデルとして動作しています。
複数のモデルを個別でトレーニングするため、結果にばらつきが生じてしまうこともあるでしょう。
一方のGeminiはテキストや画像、音声などの要素をひとつのモデルにまとめてトレーニングします。出力するときは、トレーニングされたモデルから各モデルに変換するときに、再度チューニングし直します。
その結果、コンテンツによって結果にばらつきが生じにくく、高いクオリティで結果を出力してくれます。
GeminiはAI専用のチップを使って開発されている
GPT-4はNVIDIA製のプロセッサを使って開発されています。最新モデルを使っているのですが、NVIDIA製のプロセッサはゲームの3DCGを処理する目的で設計されたものであるため、AI開発に最適というわけではありません。
一方、Geminiの開発に採用されたチップは、Google謹製のAI用プロセッサ「Tensor Processing Units / TPU」です。AI用に処理速度や効率が最適化されているため、複雑なタスクにも適しているといえます。
GeminiはGoogleのサービスと連携できるのが最大の強み
Googleのマルチモーダル生成AIモデル「Gemini」について紹介しました!
各種ベンチマークやトレーニング方法、AI専用チップなど注目すべき点が多い最新のAIモデルですが、一般で利用する場合、最も魅力的なのはGoogleの各サービスとシームレスに連携する点です。
メールやGoogle検索はもちろん、ドキュメントやスプレッドシート、画像処理など、使い慣れてきたサービスにAIを活用できるようになると、仕事もプライベートももっと便利になるかもしれません。また、APIを使ったアプリケーションの登場も楽しみです。
簡単なテキスト入力からでも使えるので、ぜひ積極的に試してみましょう!
この記事が気に入ったらサポートをしてみませんか?