見出し画像

ジェミニ ライブ - グーグルがオープンAIを追い抜き、真の音声AIを実現(ローンチ詳細)

グーグルのイベントが開催され、非常に興味深いAIの発表がいくつかありました。一緒に見ていきましょう。では、ビデオを見てみましょう。
一緒にこのビデオを見て、最も興味深い点をピックアップしていきます。ジェミニがすべての鍵となっています。私たちは完全にジェミニの時代に入り、AIがグーグルでのほぼすべての作業に組み込まれています。テックスタック全体にわたって統合されたAI戦略により、私たちは自分たちの進む方向をコントロールし、スタックのあらゆる層で革新を続けています。
ジェミニモデルには、最新のジェミニ1.5プロ開発者プレビューモデルが含まれています。ジェミニ1.5のプロとプロの実験版の両方をテストしましたが、全く良い結果が出ませんでした。実際、最近テストしたモデルの中で最悪のパフォーマンスだったのは少し残念です。さらに、AI Studioでも苦戦しました。レスポンスの出力が途中で切れてしまい、理由がわかりません。これは以前からAI Studioで経験していた問題です。
続けて見ていきましょう。LMISチャットボードアリーナのリーダーボードで1位になりました。このチャンネルをご覧になっている方はご存じだと思いますが、ベンチマークは実際の使用には意味がありません。本当に意味がないのです。だからこそ、私は独自の大規模言語モデルのテストを行っています。
私たちは、これまでにない方法で素晴らしいアプリとサービスを通じてサポートを提供できるようになりました。これが、グーグルが人工知能競争で勝利する可能性が非常に高いと私が考える理由です。現時点で最高のモデルを持つ必要はありません。将来的には最高のモデルの1つを持つでしょうが、今日持つ必要はありません。彼らが持っているのはエコシステムとハードウェアです。
ユーザーが人工知能と対話できるAndroidエコシステムがあり、ここに表示されているようなアプリケーションスイートがあります。考えてみると、私はこの画面のほぼすべてのアプリを使用しています。これがグーグルが非常に強力な理由です。これらの各アプリケーションに人工知能を重ね合わせるだけで、すでに私の個人情報をすべて持っているので、新しい会社を信頼する必要はありません。
これらのアプリケーション内で、私に代わってタスクを実行し、達成できるエージェントがあれば、それは私のデジタルライフで必要なほぼすべてのことが行われることになります。これが私が想像する未来です。AIエージェントが24時間365日、私に代わって働くのです。そしてこのレースに勝利するのは、2つの会社のうちの1つです。アップルかグーグルのどちらかです。なぜなら、彼らはハードウェア(iOSかAndroid)を持っており、アプリのエコシステムも持っているからです。
アップルは完全にクローズドソースですが、オンデバイスで計算の大部分を行うというアプローチには大いに賛成です。以前のビデオでも多く話しましたが、クアルコムやアップルのオンデバイス計算は非常にエキサイティングです。データを外部に送る必要がなく、レイテンシーが低く、コストが低く、小規模なモデルの改良が続けられるからです。
続けて見ていきましょう。月間アクティブユーザー数が20億人を超える6つの製品すべてで、ジェミニモデルを使用してユーザーをサポートしています。検索でより速く情報を得られ、ドキュメントでより多くのことができ、Gmailでメールを書く際にサポートを受けられ、Chromeのアドレスバーから直接ジェミニとチャットを始められます。
私は、彼が説明しているすべてのアプリケーションでジェミニのようなサイドバー的なものを見てきましたが、実際にはあまり使用していません。メールスレッドの要約が非常に役立つ場合が数回ありました。また、Google Sheetsでは実際に使用する数式を推奨してくれるので、これも非常に役立ちます。しかし、それ以外ではあまり使用していません。
実際、数ヶ月前からAndroidにジェミニが組み込まれているのですが、人々はそれを簡単にオンにできることに気づいていないと思います。「Hey Google」と言って質問するだけで簡単に使えるようになり、標準的なGoogleではなく、ジェミニが動作するようになりました。もちろん、ジェミニの品質に制限されているので、それがどういう意味か分かりますね。
次のデモは実際に非常に印象的です。私はこれを思いつきもしませんでした。基本的に、Nestホーム(つまりNestカメラとNestサーモスタットを持ち、基本的にGoogleホームバージョンの家)があれば、記録されたものに基づいて単純に質問できます。これもある意味怖いですが、このデモをチェックしてみましょう。
ジェミニがあなたの家をよりスマートに、より安全に、より管理しやすくする新しい方法がいくつかあります。彼らは単に「マークの菜園を掘り返したのは何か」と尋ねただけで、菜園を掘り返したものの特定のクリップを引き出しました。これを実現するには多くの処理が必要で、本当に印象的です。しかし、繰り返しになりますが、ちょっと怖いですね。
このAndroidエコシステムには、オンデバイスの体験を動かすための最も効率的なモデルであるジェミニNanoという独自のAIモデルさえあります。そこにあります。グーグルもオンデバイスの人工知能、オンデバイスの計算に投資しています。このアプローチが大好きです。彼らは、より多くのユースケースがオンデバイスで低レイテンシーで実現できることに気づいています。
クエリやプロンプトをクラウドに送る必要がありません。これは彼らにとってはるかに高コストで、エネルギー効率が悪く、はるかに遅く、そして単に必要ないのです。このジェミニNanoのアプローチが大好きです。まだテストしていないと思いますが、テストしたモデルが多すぎて、この時点では少し混同しています。テストしてほしい場合は教えてください。
次に、ジェミニがAndroidに来ることについて話します。基本的に、最も人気のあるモバイルオペレーティングシステムであるAndroidのあらゆる側面に重ねられています。
あなたのAndroidスマートフォンは、時間とともに改善され続けます。ジェミニは世界中で数十億のデバイスをサポートしており、圧倒的に世界で最も広く利用可能なAIアシスタントです。
ここで、Androidでジェミニを使ってできるさまざまなことについて説明していますが、これはすでにGoogle I/Oなどの以前のプレゼンテーションで見たものの多くです。多くの要約や、この情報源からこの情報を取得するなど、特に画期的なものはありません。
次に、AIがデジタルライフのあらゆる部分に浸透する世界でのプライバシーについて話します。アップルから大きなヒントを得ているようで、サードパーティのクラウドやクラウドに送信されるのではなく、プライベートクラウドであり、実際にはクラウドではなく何か違うものだと言っています。しかし、実際にはただのクラウドです。見てみましょう。
ジェミニは、個人データを信頼できない可能性のあるサードパーティのAIプロバイダーに送信することなく、グーグル独自の安全なクラウド内でこのような複雑な個人的なクエリを処理できます。電話の通話音声の要約や、暗号化されたテキストメッセージへの役立つ返信の提案など、最も機密性の高いユースケースの一部については、ジェミニNanoを使用してオンデバイスの生成AIを先駆的に実現しています。これは、大規模なマルチモーダルAIモデルがモバイルデバイス用に最適化された初めてのケースです。つまり、データがあなたの電話から出ることはありません。
はい、それが好きです。初めてかどうかはわかりませんが、オンデバイス計算は間違いなく好きです。そして繰り返しになりますが、これについては多く話してきましたし、これからも話し続けるつもりです。なぜなら、これが将来だと信じているからです。あなたの電話に収まる小さなモデル、非常に効率的で、エネルギーコストが低く、レイテンシーが低く、ユースケースの90〜95%を実現できるものです。そして最後の5〜10%については、クラウドに送ります。
次に、AndroidでGoogleジェミニができることの多くについて話していますが、これらすべての発表を聞くのはちょっと奇妙です。なぜなら、すでに使ってきたからです。特別なアクセス権を得たわけでもなく、覚えている限りではベータ版をオンにしたわけでもありません。ただスイッチを切り替えただけで、「OK Google」がジェミニになりました。
そして、広範囲に使用してきましたが、まあまあです。SiriやOK Googleよりも能力の高いものがあるのは本当に素晴らしいですが、まだCLAやチャットGPTほど強力ではありません。また、実際にOK Googleの機能の一部を失っています。私はOK Googleを使って家をコントロールし、ライトのオンオフを切り替えていますが、5回に1回くらいは単純にそれを拒否します。アクセス権がないと言いますが、あることは分かっています。そのため、まだ幻覚を見ることがあり、以前あった機能の一部を失っています。しかし、より多くの機能が追加されているのは良いことです。
次に、新しいピクセルフォンについて話しますが、これはあまりAIに関連していないので多くの時間を費やしませんが、これらの電話に新しいAIチップが組み込まれていることについて話し始めると思います。
ピクセルは、グーグルAIの最高のものを紹介するためのプラットフォームです。これまで見てきたジェミニの有用性はすべてピクセルに組み込まれており、ピクセル9ではさらに進化しています。ジェミニ時代のために設計された最初の電話です。Rickが説明したフルスタックが、シンプルで役立つ方法でピクセルで実現します。
AIモデル用に特別に調整された、カスタムデザインのシリコンであるテンソルがあります。そうです、カスタムAIチップが直接デバイスに搭載されています。繰り返しになりますが、AI計算はエッジに移動しています。また、最新のオンデバイスモデルであるジェミニNanoがマルチモダリティを備えています。新しいチップにより、新しいモデルが直接デバイス上に存在します。このアプローチが大好きです。
では、AIハードウェアと新しいピクセルに搭載される一部のAI機能について学びましょう。
グーグルDeep Mindと協力して、テンソルG4をカスタム開発しました。つまり、業界トップのAI研究チームがピクセルのシリコン開発に直接協力し、グーグルの最新の高度なモデル(最新のオンデバイスモデルを含む)に最適化しています。
ピクセル9は、マルチモダリティを備えたジェミニNanoを搭載して発売される最初の電話です。これは、これまでに電話に搭載された中で最も高性能なオンデバイスAIモデルです。実際、わずか9ヶ月前にピクセル8プロに搭載したジェミニNanoモデルの3倍の能力と洗練さを持っています。
そして、このサイズと複雑さの増加にもかかわらず、テンソルG4のTPUは業界をリードするモバイル出力レートである最大45トークン/秒を生成できます。はい、それは素晴らしいです。完全にモバイルのマルチモーダルで45トークン/秒。しかし、テストしたいですね。なぜなら、実際にはすべてのこれらの数字は、うまく機能しなければ意味がないからです。そのため、テストして結果をお知らせします。
では、ピクセルデバイスでのみ利用可能ないくつかのAI機能について見ていきましょう。これらの新機能を簡単に見てみましょう。
私たち多くの人にとって、朝一番に確認するものです。そこで、AIを使ってその体験をより役立つ、より楽しいものにしています。新しいピクセル天気アプリを使って、ここマウンテンビューの天気をライブで見てみましょう。ジェミニNanoがカスタムAI天気レポートを生成するので、その日の天気を把握するために多くの数字をスクロールする必要がありません。
単純なアププを見て天気を確認するのはそれほど大変な作業ではありません。ここに列挙されているその他のことも同様です。これは本当に、あらゆるものにAIを組み込もうとしているだけのように見えます。天気アプリにはおそらく必要ないでしょう。結局、このテキストをすべて読まなければなりません。実際、視覚的なインターフェースを見る方が簡単かもしれません。この点については、グーグルにちょっと疑問を感じます。
ピクセル9のAIは、一日の準備を手伝うだけでなく、一日中サポートしてくれます。長年、ピクセルの電話アシスタントはスパム発信者をブロックしてきました。はい、これは本当にクールな機能ですが、しばらく前から利用可能でした。
そして、再びアップルの後を追っているようです。オンデバイスの拡散モデルを持っています。テキストから画像への変換を見てみましょう。
すべてのピクセル9電話には、新しいピクセルスタジオが搭載されています。これは初めての画像生成ツールです。テンソルG4上で動作するオンデバイスの拡散モデルと、クラウド上のImagine 3テキストから画像へのモデルによって動作します。好きなものを入力するだけで作成できます。
完璧な例として、ファンキーなパーティー招待状を作りましょう。同僚のタギスがサンフランシスコに戻ってきて、ついに自分の場所を手に入れました。オーシャンビーチのファイヤーピットでのパーティーほど、カリフォルニアへの歓迎を表すものはありません。招待状を作るのがいかに簡単かを見てみましょう。今すぐライブで作ってみます。
作成をタップし、シンプルなプロンプトから始めます。「夕暮れ時のビーチの焚き火ピット」にしましょう。ピクセルスタジオを高速化したので、ほとんど待つ必要はありません。ご覧の通りです。はい、本当に印象的です。さらに、基本的にアップルのインテリジェンスバージョンと同じガードレールがありません。スタイルに3つの選択肢しかないのとは異なり、これははるかに自由度が高く、非常に高速です。私はこれが好きです。これはクールです。
よさそうですね。典型的なサンフランシスコらしさを出しましょう。ゴールデンゲートブリッジを追加してみましょう。ピクセルスタジオがどのように仕上げるか見てみましょう。素晴らしいですね。
これをパーティーらしく感じさせたいので、ピクセルスタジオで創造性を発揮できます。空に花火を追加してみましょう。どうなるか見てみましょう。本当に素敵です。
ただ、これを写真ではなく、より招待状らしく感じさせたいですね。スタイルボタンをタップすると、画像の見た目を素早く変更できます。漫画風を試してみましょう。プロンプトを変更するのと同じように、ほんの少し時間がかかります。
ご覧の通り、スタイルの変更は素早く簡単で、正直言って楽しいです。ただ、この場合は私が求めているものではないので、レトロなビデオゲームのようなスタイルを試してみましょう。どうなるか見てみましょう。本当にクールですね。構図を変更したい場合は...
ということで、要点はお分かりいただけたと思います。非常にクールですね。これが好きです。
次は本当にクールな機能です。これは間違いなく私が使うものです。そして、一見したところ本当にうまく機能しているようです。マーケス・ブラウンリーがすでにこの機能を使用したデモビデオを作っており、はい、うまく機能しているように見えます。では、見てみましょう。
家族旅行の写真に自分を追加したり、お気に入りのアスリートとの一生に一度の写真を撮ったりできます。ピクセル9プロと、6回のNBAオールスターに選ばれたピクセルユーザーであるジミー・バトラーを使って、どのように機能するか紹介します。
(音楽)(拍手)(音楽)(拍手)(音楽)
ああ、ステージに参加して私たちのデモを手伝ってくれてありがとうございます。あなたと写真を撮ってもいいですか?もちろん、あなたのためなら何でもします。そして、私をボックスアウトしないでください。約束します。こちらに移動しましょう。ケニー、写真を撮ってもらえますか?もちろんです。みなさん見えますか?私がかっこよく見えるようにケニー。はい、そうですね。
では、そのAdd Meモードに切り替えます。ショットをフレーミングして、右側に自分のためのスペースを少し確保します。そしてバーン!さて、シャン、これはジミー・バケッツです。お願いします。写真に少し私を追加してください。ケニーも写真に入れましょう。行きましょう。
ご覧のように、拡張現実のオーバーレイが私を導いています。そして今、写真を撮ることができます。そして、お二人がこちらに来ていただければ、1回のショットで処理されるのがわかります。はい!
super cool(超クール)
基本的に、写真を撮り、撮影者を交代し、他の人を追加して、実際には起こらなかったショットをすべてまとめることができます。マーケス・ブラウンリーは何年も前にこのことについて話していました。AIが写真をより良く、より異なるものにし、機能を追加し続けるにつれて、実際の現実とは何なのか、と彼は言いました。確かに、この場合、写真が撮られた方法で実際には起こっていません。
以前にも話したことがありますが、これは私にとって魅力的です。考え続けたいと思います。なぜなら、ある時点で、ビデオ、写真、音声、私たちが聞くすべてのものは、AIによって拡張されるか、AIによって作成されるからです。現実とは何なのでしょうか。
さて、これがこのイベントでの人工知能に関する主要な発表でした。コメントで皆さんの意見を聞かせてください。いくつかの良い発表がありましたが、革命的なものは何もありませんでした。これらの大規模言語モデルがモバイルデバイスに組み込まれていることを知るのは嬉しいです。Apple Intelligenceを試すのが待ちきれません。実際にはまだ試していませんが、試すことは間違いありません。そして、Androidスマートフォンでジェミニをもっとたくさんテストするつもりです。
このビデオが気に入った方は、ぜひいいねとチャンネル登録をお願いします。次回の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか?