GoogleがGPT-4の対抗馬Geminiを発表、Pixel 8 ProにもGemini搭載

2023年12月7日 06:29

日本時間で12月7日の日付が変わった瞬間に送れていたGemini Ultraのリリースが発表されました。今日から、 Bard はより高度な推論、計画、理解などのために、Gemini Pro の微調整されたバージョンを使用されています。これは、Bard の発売以来最大のアップグレードとの事。170 以上の国と地域で英語で利用できるようになり、近い将来、さまざまなモダリティに拡大し、新しい言語と場所をサポートする予定と下記のページに明記されています。

早速、Bardに質問してみました。

Pixel 8 Pro からGemini Nanoが使用できる

Gemini を Pixel に導入されます。Pixel 8 Pro は、Gemini Nano を実行するように設計された最初のスマートフォンです。Gemini Nano は、レコーダーアプリの要約や Gboard のスマートリプライなどの新機能を強化しており、WhatsApp から始まり、来年にはさらに多くのメッセージングアプリが登場します。

今後数か月以内に、Gemini は検索、広告、Chrome、Duet AI などの他の製品やサービスで利用できるようになります。

Bardにも質問してみました。

Bardは以下のリンクを紹介してくれました。

また、こちらのPixel 8 Pro発売記事も紹介してくれました。

Bardによる要約は以下の通りです。

Googleは新たな大規模言語モデル「Gemini」を発表しました。Geminiは3つのサイズのモデルがあり、「Gemini Nano」はスマートフォンなどに導入され、デバイス上でAIの能力を引き出すことができます。最初のGemini Nano搭載スマートフォンは「Pixel 8 Pro」で、録音の要約やGboardのスマート返信などの機能が追加されます。Gemini Nanoはオンデバイスで動作し、エンドツーエンドで暗号化されたメッセージングアプリでの返信提案など、様々なAI機能を実装することができます。「Bard」や「Assistant with Bard」などの新機能も2024年に登場予定です。また、Pixelシリーズのアップデートも行われ、Pixel 8 Proでは動画ブーストや夜景モードのタイムラプスなどが追加され、写真やビデオ撮影のクオリティが向上します。さらに、Pixel FoldやPixel Tabletなどでも様々な機能のアップグレードが行われます。

Bard

今Pixel 8 Proを買えばデフォルトでGemini Nanoを搭載

以下、Bardの説明のスクショを掲載しておきます。

Gemini搭載で詐欺師能力も格段に上がったBard

後記したスキル表を見るとわかるように全てのスキルがGPT-4を上回っている様に、詐欺スキルも爆上がりしているので使用には注意が必要です。以下、詐欺師能力検証Noteを別にまとめました↓

GoogleとAlphabetのCEOサンダー・ピチャイ氏のメモ抜粋

AI ファースト企業としての当社の取り組みから 8 年近くが経ち、進歩のペースは加速するばかりです。現在、何百万人もの人々が当社の製品全体で生成 AI を使用し、答えの発見からより複雑な問題に至るまで、1 年前にはできなかったことを実行しています。新しいツールを使用して共同作業や作成を行うことについての質問。同時に、開発者は当社のモデルとインフラストラクチャを使用して新しい生成 AI アプリケーションを構築しており、世界中のスタートアップ企業や企業が当社の AI ツールを利用して成長しています。

現在、私たちは、多くの主要なベンチマークにわたって最先端のパフォーマンスを備えた、これまでで最も有能かつ汎用的なモデルである Gemini を使って、次の一歩を踏み出しています。最初のバージョンである Gemini 1.0 は、Ultra、Pro、Nano などのさまざまなサイズに最適化されています。これらは Gemini 時代の最初のモデルであり、今年初めに Google DeepMind を設立したときに私たちが抱いていたビジョンを初めて実現したものです。この新時代のモデルは、当社が企業として取り組んできた最大の科学および工学的取り組みの 1 つを表しています。私はこれから起こること、そしてジェミニが世界中の人々に解き放つ機会に心から興奮しています。

Google DeepMind CEO 兼共同創設者 Demis Hassabis氏の紹介文抜粋

Gemini は、Google Research の同僚を含む Google 全体のチームによる大規模な共同作業の成果です。これは、マルチモーダルになるようにゼロから構築されており、テキスト、コード、オーディオ、画像、ビデオなどのさまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。

最初のバージョンである Gemini 1.0 を 3 つの異なるサイズに最適化しました。

Gemini Ultra — 非常に複雑なタスクに対応する、当社最大かつ最も有能なモデル。
Gemini Pro — 幅広いタスクに対応するための最良のモデル。
Gemini Nano — オンデバイスタスク向けの最も効率的なモデル。

Gemini Ultraのパフォーマンス

自然な画像、オーディオ、ビデオの理解から数学的推論に至るまで、Gemini Ultra のパフォーマンスは、大規模言語モデル (LLM) の研究開発で使用される 32 の広く使用されている学術ベンチマークのうち 30 において、現在の最先端の結果を上回っています。

90.0% のスコアを誇る Gemini Ultra は、数学、物理学、歴史、法律、医学、倫理などの 57 科目の組み合わせを使用して両方の世界をテストするMMLU (大規模マルチタスク言語理解) で人間の専門家を上回るパフォーマンスを示した最初のモデルです。知識と問題解決能力。

MMLU に対する新しいベンチマークアプローチにより、Gemini はその推論機能を使用して、難しい質問に答える前により慎重に考えることができるようになり、第一印象のみを使用する場合よりも大幅な改善につながります。

GPT-4とのパフォーマンス比較

Gemini は、テキストやコーディングを含むさまざまなベンチマークでGPT-4のパフォーマンスを上回ります。

画像ベンチマークのパフォーマンス

画像ベンチマークでは、Gemini Ultra は、さらなる処理のために画像からテキストを抽出するオブジェクト文字認識 (OCR) システムの支援なしで、全てのスコアに置いてGPT-4Vを上回りました。

ちなみに、上記のスペックはGemini Ultraのパフォーマンスであり、Bard自体は3.5より若干上がったくらいと言うポストがありました。以下引用

I been testing Bard all day too and can absolutely confirm it is not GPT-4 capability in any respect (reasoning, vision, etc.) This is just the Gemini Pro-- Gemini Ultra hasn't even dropped yet. https://t.co/UuAEzy0Rdw
— BeyondBacktesting (@BBacktesting) December 7, 2023

Geminni Ultraは本当にすごいようだ！

下記のポストに添付されている動画によると、やはりパフォーマンスはすごいようです。比べているBardの中の人はGemini Proです。

【Gemini選手権】ほんとに？すごいの？

第一回戦

ゴール　新規事業の立ち上げ
成果物　事業企画書

winner

じぇみに

コメント、圧倒的に早い。 pic.twitter.com/QbL0Nf1pYk
— ハヤシシュンスケ | AIG研究所 (@openagi_lab) December 7, 2023

ネイティブにマルチモーダルに対応できるように設計

Gemini をネイティブにマルチモーダルに対応できるように設計し、さまざまなモダリティについて最初から事前にトレーニングしました。次に、追加のマルチモーダルデータを使用して微調整し、その有効性をさらに洗練しました。これにより、Gemini はあらゆる種類の入力をゼロからシームレスに理解し、推論することができ、既存のマルチモーダルモデルよりもはるかに優れており、その機能はほぼすべてのドメインで最先端です。

洗練された推理

Gemini 1.0 の洗練されたマルチモーダル推論機能は、複雑な文字情報や視覚情報を理解するのに役立ちます。そのため、膨大な量のデータの中から識別するのが難しい知識を発見することに独自のスキルを発揮します。

テキスト、画像、音声などを理解する

Gemini 1.0 は、テキスト、画像、音声などを同時に認識して理解できるようにトレーニングされているため、微妙な情報をよりよく理解し、複雑なトピックに関する質問に答えることができます。そのため、数学や物理学などの複雑な主題の推論を説明するのが特に得意になります。

高度なコーディング

Gemini の最初のバージョンは、Python、Java、C++、Go などの世界で最も人気のあるプログラミング言語を理解し、説明し、高品質のコードを生成できます。複数の言語を超えて機能し、複雑な情報を推論する能力により、世界の主要なコーディング基盤モデルの 1 つとなっています。

Gemini Ultra は、コーディングタスクのパフォーマンスを評価するための重要な業界標準であるHumanEvalや、Web ベースの情報の代わりに作成者が生成したソースを使用する社内保持データセットである Natural2Code など、いくつかのコーディングベンチマークで優れています。

Gemini は、より高度なコーディングシステムのエンジンとしても使用できます。2 年前、私たちは、プログラミングコンテストで競争力のあるレベルのパフォーマンスに達した初の AI コード生成システムであるAlphaCodeを発表しました。

Gemini の特殊バージョンを使用して、より高度なコード生成システムAlphaCode 2を作成しました。これは、コーディングを超えて複雑な数学や理論的なコンピューターサイエンスを含む競技プログラミングの問題の解決に優れています。

責任と安全性を中心に構築

Google では、あらゆる活動において大胆かつ責任ある AI の推進に取り組んでいます。Google のAI 原則と製品全体にわたる堅牢な安全ポリシーに基づいて、Gemini のマルチモーダル機能を考慮した新しい保護機能を追加しています。開発の各段階で、私たちは潜在的なリスクを検討し、それらのテストと軽減に取り組んでいます。

Gemini は、バイアスや毒性を含め、これまでの Google AI モデルの中で最も包括的な安全性評価を行っています。私たちは、サイバー攻撃、説得、自律性などの潜在的なリスク領域に関する新しい研究を実施し、Gemini の導入に先立って重要な安全上の問題を特定するために、Google Research のクラス最高の敵対的テスト技術を適用しました。

危害を制限するために、たとえば暴力や否定的な固定概念を含むコンテンツを識別、ラベル付け、分類するための専用の安全分類子を構築しました。堅牢なフィルターと組み合わせたこの多層アプローチは、Gemini をすべての人にとってより安全でより包括的なものにするように設計されています。さらに、事実性、根拠、帰属、裏付けなど、モデルに関する既知の課題にも引き続き取り組んでいます。

ジェミニを世界中で利用できるようにする

今日から、 Bard はより高度な推論、計画、理解などのために、Gemini Pro の微調整されたバージョン、にアップデートされたBardと共に、Gemini を Pixel にもGeminiを導入します。Pixel 8 Pro は、Gemini Nano を実行するように設計された最初のスマートフォンです。Gemini Nano は、レコーダーアプリの要約や Gboard のスマートリプライなどの新機能を強化しており、WhatsApp から始まり、来年にはさらに多くのメッセージングアプリが登場します。

今後数か月以内に、Gemini は検索、広告、Chrome、Duet AI などの他の製品やサービスで利用できるようになります。

私たちはすでに Gemini in Search の実験を開始しており、品質の向上とともに米国での英語の遅延が 40% 削減され、ユーザーの検索ジェネレーティブエクスペリエンス(SGE) が高速化されています。

Pixel 8 Pro デバイスから始まるandroid開発

12 月 13 日より、開発者と企業顧客は、Google AI Studio またはGoogle Cloud Vertex AIの Gemini API を介して Gemini Pro にアクセスできるようになります。

Google AI Studio は、API キーを使用してアプリのプロトタイプを迅速に作成し、起動できる無料の Web ベースの開発者ツールです。フルマネージド AI プラットフォームが必要なときは、Vertex AI を使用して完全なデータコントロールを使用して Gemini をカスタマイズでき、企業のセキュリティ、安全性、プライバシー、データガバナンスとコンプライアンスのための追加の Google Cloud 機能のメリットを活用できます。

Android 開発者は、Pixel 8 Pro デバイスから始まる Android 14 で利用可能な新しいシステム機能である AICore を介して、オンデバイスタスク用の最も効率的なモデルである Gemini Nano を使用して構築することもできます。AICore の早期プレビューにサインアップしてください。

この記事が気に入ったらサポートをしてみませんか？