見出し画像

Google I/O 2024 で知ってほしい 4 つのテーマ

こんにちは。Google の AI「Gemini(ジェミニ)」の公式 note 編集部です。5 月 14 日(日本時間 5 月 15 日)に開催した「Google I/O 2024」(以下、Google I/O)では、Google の AI にまつわるさまざまな発表をしました。基調講演の冒頭では、スンダー ピチャイ CEO が「The Gemini Era(Gemini の時代)」を宣言。実際に、今回の Google I/O で発表した製品 / 技術のほとんどは AI モデルの Gemini がベースです。

この記事では、Google I/O で発表した内容について、Gemini を中心に紹介していきます。

編集者注:本記事は Google I/O 2024 の基調講演でのピチャイ CEO の発言の翻訳および 、Google Japan Blog の内容を編集し、イベントで発表された内容を加えて再構成したものです。すべての発表についてはこちらをご覧ください。


Google I/O 2024 を総括する 4 つのテーマ

Google I/O は、Google が年に一度開催している開発者向けのカンファレンスです。Google 本社のある米国カリフォルニア州マウンテンビューで開催しています。

このイベントは、たくさんのセッションやデモを通して、最新の製品リリースやアップデートについて知っていただく機会になります。特に今年は、2 日間で 100 項目もの発表(英語での紹介のみ)を行いました。Google I/O のハイライト動画や基調講演を聞いてみたい方は、こちらの日本語のページから、実際のコンテンツの一部をオンデマンドの字幕付き動画でチェックいただけます。

Google は 10 年以上にわたって AI への投資を継続しており、リサーチ、製品、インフラストラクチャなど、あらゆる階層を革新してきました。

そこからさらに「The Gemini Era(Gemini の時代)」がどこへ向かうのか。Google I/O 2024 の発表の中心となった Gemini に関連する 4 つのテーマについて解説します。

1: マルチモーダル AI が起こすイノベーション

ピチャイ CEO は基調講演のなかで、「Gemini は、ゼロから構築された本質的なマルチモーダルのフロンティア モデルであり、テキスト、画像、動画、コードなどを推論できます。これは、あらゆる入力をあらゆる出力にできる大きな一歩となります」と述べました。

画像理解が大きく進化しており、例えば、レストランで料理を撮影してレシピを調べたり、本に載っている数学の問題を撮影して解き方を段階的に説明したりといったことが可能です。

自然言語のプロンプトで動画を生成できる「Veo」、写実的な画像を生成できる「Imagen 3」なども発表し、Gemini モデル の進化によってコンテンツ生成もパワーアップしていきます。

2: Google のツールを通じて誰もが Gemini を使いこなせる時代

Gemini モデルの進化は、Google のあらゆるサービスや機能も同時に進化させていきます。まさにそれは「The Gemini Era(Gemini の時代)」と呼ぶにふさわしい変化の 1 つです。

Google I/O では、Gemini が Gmail、Google カレンダー、Google ToDo リスト、Google Keep など、より多くの Google のツールに接続できるようになる例を紹介しました。Google Workspace のサイドパネルにも、 Gemini スペースが登場します。

これらのアップデートによって、例えば、次のようなことが今後できるようになっていきます。

  1. 子どもの学校の予定表の写真を撮影して Google カレンダーに予定を追加

  2. Google Meet で録画された会議の要約を表示

  3. レシピを撮影して買い物リストを Google Keep に追加

また、モバイル デバイスへも Gemini モデルの搭載が進められています。文字入力ではなく、音声による自然な会話を聞き取ったり、わからないことがあれば写真や動画を撮影しながら質問したりと、 Gemini は、新しい AI アシスタントとしてさまざまな場面でユーザーをサポートします。

3: 100 万トークンのコンテキスト ウィンドウが可能にする、パワフルなデータ処理

2024 年 2 月に発表し、開発者向けには Google AI Studio や API 経由で提供していた「Gemini 1.5 Pro」ですが、今回 Gemini Advanced ユーザー向けにも提供開始しました。Gemini for Google Workspace も、Gemini 1.5 Pro にアップデートしました。

100 万トークンに拡張されたコンテキスト ウィンドウに対応するようになることが、3 つめの大きな変化です。

これによって、例えば最大 1,500 ページの複数ドキュメントの理解や、100 件のメールを要約できるなど処理能力が大幅に向上。また、まもなく 1 時間の動画コンテンツや 3 万行を超えるコードベースの処理も可能となります。

コンテキスト ウィンドウの拡大に加えて、Gemini Advanced では、Google ドライブ経由、またはデバイスから直接ファイルをアップロードできるようになります。加えて Gemini Advanced をデータ アナリストとして活用できるようになると、複数のスプレッドシートをアップロードして、分析や独自のグラフを作成するといったことも行えます。

なお、一般向けには 100 万トークンですが、開発者向けのプライベート プレビューでは 200 万トークンのコンテキスト ウィンドウが提供されます。

4:より自然でよりパーソナルな、AI エージェント「Project Astra」

新しい時代への変化、4 つめを象徴するのは次世代の AI エージェントとして取り組む「Project Astra」です。

エージェントが本当に役立つためには、人間と同じように、次のようなことができなければならないと考えています。

  1. 複雑で動的な世界を理解する

  2. 見たり聞いたりしたものを記憶する

  3. 教育可能でパーソナルである

私たち Google は、日常生活に役立つユニバーサルなエージェントを構築したいと常に考えてきました。Project Astra は、テキストだけではなく、音声や画像、動画、空間の把握などマルチモーダルでの理解と、リアルタイムの会話機能を備えています。

Google I/O を通して、AI が私たちの生活をより便利に、より豊かに、そしてより創造的に変えていく可能性をご紹介できたのではないかと考えています。

例えば、Project Astra のような AI エージェントが私たちの生活にさらに深く浸透していくのも遠い未来の話ではありません。

これらのテクノロジーがどのように進化し、私たちの生活にどのような影響を与えていくのか、ぜひ今後もご注目ください。


この記事が参加している募集

#イベントレポ

26,291件

#振り返りnote

85,857件

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!