Google I/O 2024 まとめ With Xのポスト

2024年5月15日 14:17

本日、2024年5月15日にGoogle I/O 2024が公開されましたね。前日の5月14日には、OpenAIが先んじて最新技術を発表し、世間を騒がせていました。GoogleとOpenAIで激しいAI技術攻防戦が行われていたように思えます。

今回は、Google I/O 2024の内容を振り返り、特に興味深かった機能を取り上げました。やはり、AI技術の進歩が際立っていたので、AI中心の話になります。

基調講演のサマリーは、以下の動画で確認できます。

Here's a full recap of our news and updates from #GoogleIO — in under 10 minutes 🎉 pic.twitter.com/O2B8QPsNTg
— Google (@Google) May 15, 2024

Gemini 1.5 Proの入力トークン数が100万に

今回の基調講演で最も驚いたことが、Gemini 1.5 Proの入力トークン数を100万トークンまで拡大したことです。
次のポストでは、生物学の教科書を丸々読み込ませて、教科書の内容について回答してもらっている様子です。このトークン数は非常に魅力的ですね。

I fed an *entire* biology textbook into Gemini 1.5 Pro.

491,002 tokens.

I asked it 3 extremely specific questions, and it got each answer 100% correct.

1M token context windows are a gamechanger. pic.twitter.com/Xby8aDiItp
— Mckay Wrigley (@mckaywrigley) February 21, 2024

Gemini 1.5 Flash

Geminiの速度・低コストを重視した軽量化モデル「Gemini 1.5 Flash」が発表されました。こちらのモデルも前述した100万トークンを入力でき、100万トークンでわずか$0.35でAPIを使用できるとのこと。

Today, we’re excited to introduce a new Gemini model: 1.5 Flash. ⚡

It’s a lighter weight model compared to 1.5 Pro and optimized for tasks where low latency and cost matter - like chat applications, extracting data from long documents and more. #GoogleIO pic.twitter.com/WP26QVUHC7
— Google DeepMind (@GoogleDeepMind) May 14, 2024

The Gemini API and Google AI Studio are now available in 200+ countries, Gemini 1.5 Flash costs $0.35 per 1M tokens, with context caching coming next month.

So much going on today 🤯https://t.co/7j0mNTdWRS
— Logan Kilpatrick (@OfficialLoganK) May 14, 2024

小型で高性能なマルチモーダル言語モデル「Gemini 1.5 Flash」は1.5 Proの蒸留モデル。業界標準ベンチマークで性能が非常に高い。100万トークンあたりのコスト（入力）は1.5 Proは7ドルで、12万8000トークンまでのプロンプトだと半額の3.50ドルで、1.5 Flashはなんと0.35ドルhttps://t.co/9TiSJWpGVu pic.twitter.com/qHngqVcLYb
— 小猫遊りょう（たかにゃし・りょう） (@jaguring1) May 14, 2024

Gemini Nano

Androidに搭載される最軽量のモデルになります。やはりエッジで高速に処理されるようになりましたね。
以下のポストでは、Gemini Nanoが電話での会話中に、その電話が詐欺の可能性があると警告している様子を公開しています。AIによる詐欺の深刻化が予想されるので、AIによる詐欺防止機能は非常に重要だと感じています。

Coming to Pixel later this year, we’ll be introducing our latest model, Gemini Nano with Multimodality.

This means your phone will not just be able to process text input but also understand more information in context like sights, sounds and spoken language. #GoogleIO pic.twitter.com/1yTujAl1W7
— Made by Google (@madebygoogle) May 14, 2024

We're testing a new feature that uses Gemini Nano to provide real-time alerts during a call if it detects conversation patterns commonly associated with scams. This protection all happens on-device so your conversation stays private to you. More to come later this year! #GoogleIO pic.twitter.com/l87wGCz62x
— Made by Google (@madebygoogle) May 14, 2024

Project Astra

マルチモーダルを利用し、デバイスのカメラやマイクを通して、AIに物理世界を共有し、アシスタントとして様々なサポートを行ってもらうというプロジェクトです。
次の動画では、スマホやスマートグラスを通してAIに物理世界の情報を与え、その情報に基づきAIと会話している様子です。

動画生成AI - VideoFX

OpenAIのSoraに対抗して、Googleは動画生成AIのVideoFXを発表しました。プロンプトから最長60秒の動画を生成できるようです。今は、Waitlistへの登録を呼びかけている状態で、全ての人が使えるようになるには時間が掛かりそうです。

🎥Introducing Veo, our new generative video model from @GoogleDeepMind.

With just a text, image or video prompt, you can create and edit HQ videos over 60 seconds in different visual styles. Join the waitlist in Labs to try it out in our new experimental tool, VideoFX #GoogleIO pic.twitter.com/RnMsWu9s1q
— Google (@Google) May 14, 2024

画像生成AI - Imagen 3

元々Googleが持っていたImagen 2という画像生成AIをアップグレードしたImagen 3が発表されました。

以下のポストでは、同じプロンプトをImagen 3とMidjourneyに投げ、その結果を比較している様子になります。画像生成サービスは、Midjourney一強だと感じていたのですが、Imagen 3の画像はMidjourneyと遜色ない画像に見えるので、かなり精度が高いことが伺えます。

Google just introduced Imagen 3.

Their latest text-to-image Gen AI model.

Let's compare it with Midjourney v6 ↓ pic.twitter.com/iUC0oispp3
— Dogan Ural (@doganuraldesign) May 14, 2024

AI Teammate

AIを擬似同僚に見立て、Google Workspace内のファイルやメールを読み込んだり、特定のタスクを実行することができるようです。特に素晴らしい点が、チャットグループ内で以前に取り上げられた内容を記憶し、他の同僚に共有できる点です。Wikiをわざわざ作成しなくても、AIが記憶してくれるとなると、ナレッジの蓄積が容易になりますね。

GoogleがAI従業員的な機能「AI Teammate」を披露。

特定の役割や目的・タスクを与えられて、他の従業員と会話ができる。

チーム内の一人のメンバーにナレッジが蓄積されるよりも、AI従業員が蓄積することによって、より全員に情報共有ができるようになると仮設している。 pic.twitter.com/FBwgohzvLm
— Tetsuro Miyatake (@tmiyatake1) May 14, 2024

LearnLM

学習用にチューニングされたモデルの提供をするようです。
YoutubeやGoogle検索、Geminiなどの普段使用しているものにLearnLMを組み込むことで、アクティブな学習を促したり、関連する学習情報を提供したり、生徒にカスタマイズされた学習を提供することが可能になります。
いよいよ学習領域までGAFAMに侵食されてきましたね。

他にも様々な新情報

これら以外にも、Googleが提供するフレームワークやインフラへのAIの組み込みなど、新情報が盛りだくさんでした。
気になる方は、以下から確認できます。

この記事が気に入ったらサポートをしてみませんか？