Google I/O 2023は、AIを中心とした数多くの発表により、Googleが切り開くAIの未来を示唆するイベントとなりました。特に印象的だったのは、最新のモデルGemini 1.5の高度なコンテキスト理解力、写真から情報を抽出するAsk Your Photos機能、メールの内容を要約するGmail統合機能、文書や音声メモを統合してポッドキャストのようなコンテンツを生成するNotebookLM、複数のステップを実行するAI agents、リアルタイムで動作するカメラを使った対話が可能なProject Astra、テキストを含む画像生成が可能になったImagine 3、1080pで60秒以上の動画を生成できるVeoなどです。また、Google Searchに導入される複数のステップを含む質問に答え、要約を提示するMulti-step reasoning機能、リアルタイムでの字幕生成や複数のメールを要約する機能、Android上での通話中の詐欺検知機能、PaliGemmaなどのオープンソースのマルチモーダルモデルも注目すべき点でした。
公開日:2024年5月15日
※動画を再生してから読むのがオススメです。
本日はGoogle I/Oイベントでしたが、実際に私は参加することを決めたイベントです。
これは私が参加した初めてのGoogleイベントです。
本当に素晴らしい経験でした。
将来的には、イベント全体の経験についてもう少し話すビデオを作るかもしれませんが、このビデオでは、GoogleがI/Oイベント中に行った重要な発表のいくつかを紹介したいと思います。
間違いなく、このイベントはAIに関するものであり、Googleが現在AIを組み込んでいるさまざまなものについてでした。
実際、Xで多くの人々が主張しているのは、Googleが今日行ったよりも昨日のOpenAIの方が大きな発表だったと思ったということです。
昨日のOpenAIの重要な発表は、今日のどの発表よりも大きかったように感じますが、Googleからはたくさんの発表がありました。
それらをすぐに整理してみましょう。まず、Geminiの上級サブスクリプションを持つすべての人、つまり実際にGeminiを使用するために支払った人たちは、最新モデルであるGemini 1.5にアクセスできるようになりました。そして、1,000,000トークンのコンテキストウィンドウがあります。
このモデルから得られる入力と出力の単語数は約750,000語です。
これは膨大なコンテキストウィンドウであり、このコンテキストウィンドウが2,000,000トークンに拡張されることも発表されました。これは、これらの大規模言語モデルの1つを使用するときに入力と出力される約1,500,000語です。
基調講演から気に入った本当に素敵なデモの1つは、Ask Your Photos機能を披露したときでした。そこでは、自分のナンバープレート番号は何かといった質問をすることができます。
すべての写真を見て、すべての写真に写っているものに基づいて、あなたのナンバープレート番号を見つけます。
いつルーシーが泳ぎ方を覚えたのかを尋ねることもできますか?
すべての写真を検索し、ルーシーが初めて泳いでいる写真を見つけ、それがいつルーシーが初めて泳ぐことを学んだかをあなたに反映することができます。
GmailにGeminiが表示されました。
いつでもGeminiが何かを知りたい場合は、基本的にはほとんどすべてのAIツールを駆動している彼らの大規模言語モデルです。
それはポップアップする小さなチャットウィンドウであり、会話をすることができます。
彼らは、Gmailで使用されている例を示しました。そこで、子供の学校から来たすべてのアナウンスを要約するような質問をすることができます。
あなたのGmail内のすべてのメールを検索し、子供の学校に関連するすべての情報を見つけ出して、AIチャットボット内であなたのために表示します。個々のメールをクリックして自分で確認する必要がなくなります。
彼らは、NotebookLMに追加される新機能を披露しました。
私はこれが本当に素晴らしいと思いました。なぜなら、そこにたくさんの文書を入れる例を披露していたからです。
おそらく携帯電話で録音した音声メモを入れることができます。
実質的には、このコンテンツのポッドキャストのようなものを作成します。NotebookLM内の情報を説明するラジオ番組のように聞こえます。
しかし、途中で割り込むこともできます。
お話が進行している最中でも、途中で止めて「ちょっと質問があります」と言って質問してもいいですよ。
質問に答えながら、ポッドキャストモードに戻ります。
それは本当に素敵な小さな機能だと思いました。
彼らはまた、AIエージェントに向けて取り組んでいることを非常に明確にしました。それは、あなたのために複数のステップを行うものです。
単に「ねえ、この質問に答えて」と言うのではなく。
プロンプトを与えると、返答が返ってきます。
お手伝いをしてもらうことができます。
それは、そのタスクを完了するためにすべてのステップを試みます。
そのうちの1つの例は、私のためにこれらの靴を返品することでした。
靴の出所や価格、カスタマーサポートの詳細を調べ、実際に靴の販売業者に連絡を取り、靴の返金を手配することができました。
このAIエージェントのコンセプトは、ますます多くの話題になると思います。
AIを開発している多くの企業は、おそらくエージェントのような機能を披露し始めるでしょう。
今日、私はGoogleが、すでに使っているツールを使える本当に使いやすいAIエージェントを披露した最初の企業の1つであるという点で、大きな進歩を遂げたと思います。
つまり、GmailやGoogle Drive、Google Sheets、Google Docs、Google Meetなど、すでに使っているツールがすべてGoogleの傘下で使用されています。
これらのAIエージェントはその情報にアクセスすることができるでしょう。
私がAIエージェントについて心配しているのは、今日デモを見たことです。
私たちはそれができることやすべてのデータを横断して働くことに本当に興奮しました。
しかし、Googleは時々ものを発表して人々を興奮させる傾向があり、その後、出荷するのに永遠にかかったり、実際には公開しないことがあります。
それが起こらないことを願っています。
しかし、これらのAIエージェントは、私たちが多くのAI企業が自慢するのを見る次の波です。
昨日のオープンアイズのデモを見たときでも、彼らが自慢していたチャットの全体は、AIエージェントに一歩近づいたものです。
私はこれが多くの企業が進んでいることだと思います。
これがAIが本当にあるべき未来であり、これらの企業がAIが実際になることを望んでいるものです。
しかし、プレゼンテーションからは、使いやすく、アクセスしやすく、アクセスしたいすべてのデータにアクセスできるようになると思われました。
また、DeepMindのリーダーであるデミス・ハサビスもそこにいて、彼らが取り組んでいる本当に素晴らしいことを共有しました。
彼は彼らの新しいモデル、Gemini 1.5 Flashという軽量モデルを披露しました。これは、非常に小さく、軽量で、モバイル電話などで本当に速く実行されるように設計されたモデルです。
そのモデルはそのように設計されています。
私の意見では、本当に目を引くのは、Project Astraを披露したときでした。
Project Astraは、本当に役立つリアルタイムAIエージェントを作成し、あなたの携帯電話のカメラを使用できるようにする試みです。
実際に私はこれを見ることができ、デモを行い、リアルタイムで体験することができました。そして、実際にリアルタイムで動作しました。
彼らが私に見せてくれたデモでは、下向きのカメラがあり、カメラの下に物を置いてから、そのカメラで見えるものについて質問したり、そのカメラで見たものについて物語を語るように頼んだりしました。
それは機能しました。
それはかなり速く機能しました。
彼らはこの基調講演全体で、彼らが示しているものがリアルタイムであることを強調し続けました。これは、前回のGeminiの発表からの明らかな過剰修正であり、そこではリアルタイムで表示されていませんでしたが、誰もがそれがリアルタイムであると信じ込まされていました。
このイベントでは、彼らは確かにそれを過剰に修正し、常に「これは生放送です」と言っていました。
これはリアルタイムです。
実際には、これがどれだけ速く動作するかですが、彼らはスピーカーのようなものにカメラを向け、その後に電話で描画して、「これはスピーカーのどの部分ですか?」と言いました。
その画像と描画を見て、「ああ、それはツィーターと呼ばれています」と言いました。
彼らは電話で部屋をさらに見回し、環境に関する質問をすることができました。
これまでに本当に見てきたものと異なる点は、写真を撮るのではなくビデオフィードを見ていたことです。
カメラで起こっていることをビデオで見ていただけでした。
カメラで見ているものについてリアルタイムで質問をしたり、返答を得ることができます。
私にとって、それは彼らが披露した中で最も印象的なデモの1つでした。
通常、手に入れて遊んでみて、本当にどう感じるかをお伝えできるようになるまで待ちたいと思います。
しかし、手に入れて遊んでみることができました。
それはすごかったです。
それは本当にうまくいきました。
彼らはImagine 3を披露しました。これはGoogle版のDALL·Eのようなものです。これは彼らの画像生成プラットフォームです。
私にとって、これはこれまで見てきたものよりも突出して見えませんでした。
それはかなり良かったです。
この新しいものが最も進化した点は、この新しいものが今ではテキストをかなりうまく処理するようになったことです。
それは、実際にあなたの画像にテキストを挿入できるようになったDALL·E 3やIdeogramで追いついています。
彼らは自分たちの生成音楽ツール、音楽効果を披露しました。私たちは少し前からそれを使って遊ぶことができました。
私はそれで遊んだ経験があります。
それは私にとって特に新しいものではありませんでした。
しかし、彼らがVeoまたはVeoを披露したときに新しいのは、これです。
これは、少しSoraと競争するために設計された新しいビデオ生成モデルです。
Soraと同じ品質レベルには見えませんね。
でも、実際にはSoraから選りすぐった例しか見ていません。
でも、1080pでビデオを撮影できます。
それは60秒以上生成することができます。
彼らは待ちリストを開くと言っているので、実際に人々がそれを使えるようにするつもりです。一方、Soraはいつ使えるようになるか全くわかりません。
今日のイベントで披露された多くのものは、実際に試すことができます。
まだすべての国で利用可能かどうかわかりません。
そのツールの一部はアメリカでのみ利用可能です。
そのうちのいくつかは世界中で公開されています。
しかし、labs.Googleに行けば、今すぐ誰でも遊んだり実験したりできるようになっているものがたくさんあります。
今日披露されたVeoテキストからビデオモデルにアクセスするためのウェイトリストにサインアップすることもできます。これはSoraと競合することになります。
まだ誰もアクセス権を持っていませんが、そのウェイトリストに登録することができます。
再び、それはlabs.Googleで見つけることができます。
私が一番面白いと思った瞬間の1つは、彼らがGoogleにより多くのAIを組み込むことについて話し、GoogleがあなたのためにGoogleできるようになると言ったときでした。
私はそれが興味深いと思いました。
Googleはまた、Google検索エンジンに展開される新しいAI概要機能を披露しました。
この新しい検索機能には、彼らがマルチステップ推論と呼ぶものがあります。
あなたは検索エンジンにマルチステップの質問をすることができ、検索エンジンは実際にあなたが尋ねたすべてのステップに応じた概要を返信します。
お手本で紹介された例は、ボストンのヨガやピラティススタジオを見つけて、それぞれの紹介オファーやビーコンヒルからの徒歩時間を表示することでした。
これらの情報をすべて調べ、Google検索結果内でその質問に答える要約を提供し、質問者に最適な回答を見つけることができました。
こうしたものは、実際にGoogle検索エンジンを使用する人々のやり方を完全に変えるかもしれません。
単に「ピラティススタジオ サンディエゴ」と入力するだけではありません。
あなたは「私はサンディエゴのこの地域に住んでいます」と言うでしょう。
私はピラティススタジオが必要です。
私は徒歩圏内にあることを希望しており、現在特別割引が行われているものを見つけたいです。
実際には、その情報をすべて見ることができ、あなたのためにそれを探し出して検索結果の中で提示することができます。
まったく異なる検索方法です。
私は本当に、Google検索エンジンにそれが導入されるのを楽しみにしています。
このイベントで本当にたくさんの発表がありました。
OpenAIが1つの大きな発表で私たちを感心させようとしていると思うなら、Googleはたくさんの小さな発表で私たちを感心させようとしていたと思います。
彼らはまた、Geminiのリアルタイム字幕表示機能や、複数のメールを要約して時間を節約する能力も披露しました。
将来、同じワークフローを何度も繰り返すことができるGeminiを使用したワークフローを作成することさえできます。
彼らはGemsと呼ばれるものを披露しましたが、それは私にとってGoogleのOpenAIのGPTSへの回答のように見えます。
それらはある種の事前トレーニングされたチャットで、いくつかの追加のシステムプロンプトが組み込まれているので、毎回同様の出力を得ることができます。
これは私を本当に興奮させるものではありません、なぜならGPTSはあまり普及していないからです。
私は使っているいくつかのGPTSがありますが、それによって追加情報を与える手間が1つ省かれるだけです。
Gemsも同じようにこれを行うようです。
それらはクールで興味深いようですが、本当に驚くようなものではありませんでした。
舞台上で男性がいる間に、彼らが披露した本当に素晴らしいものもありました。
その電話が詐欺の可能性があると聞いた途端、彼の電話は、あなたが詐欺を試みている可能性がある人と話していると警告しました。
それは狂っていた。
それは基調講演のとても面白い瞬間でもありました。
しかし、彼らはAndroid携帯にAIを組み込んでおり、詐欺師と話している可能性があるかどうかを検出することができます。
それはかなりクールですね。
Appleもそのようなことをしてくれるといいのですが、私は個人的にほとんどiPhoneを使っているので、iPhoneにその機能があると嬉しいです。
最近はMetaがオープンソースでリリースすることについて話すことが多いので、オープンソースについても少し話しました。
さて、Googleも今では彼らのGemmaモデルでそれを始めています。
彼らはPaliGemmaというモデルについて話しました。これはオープンソースで、実際に画像などを見ることができるマルチモーダルモデルです。
しかし、誰でもそれをベースに構築することができます。なぜならそれはオープンソースだからです。
彼らはGemmaを別のオープンソースモデルに構築しています。
27億のパラメータになる予定です。
最後に、GoogleのCEOはAIを使って基調講演で実際にAIと言われた回数を数えました。
彼らによると、それはその後もう一度言うまでに120回でした。
このイベントについての最終的な考えとして、彼らは本当に印象的なものを披露したと思いました。
それのほとんどは私の心を完全に打ちのめすものではありません。
私はおそらく前日のOpenAIの基調講演で見たものに少し感動したが、これには私が手に入れたいと思うたくさんのクールな機能が披露されていた。
私はAIエージェントが欲しいです。
私は、Soraに似たビデオを生成できる新しいVeoモデルで遊びたいです。
私は、自分のGoogleドライブのすべて、Gmailの履歴のすべて、アップロードしたオーディオノート、メールの添付ファイルを検索できるツールを手に入れるのが待ちきれません。それらすべてをコンテキストとして、チャットボットに尋ねた内容に対応できるといいなと思っています。
それは多くの人々にとって非常に価値のあるものになるでしょう。
私はそれにとても興奮しています。
もう一つ感じたことは、GoogleやMeta、Microsoft、OpenAIのような大手企業を見るのは簡単だけど、それらはただ巨大で無機質な企業で、私たちのことを気にしていないと思いがちだということです。
しかし、このようなイベントに参加していると、そうではないと感じます。
これにようなイベントは、これらの巨大なメガ企業の人間らしい側面を本当に示してくれます。
これらの企業は個々の人々で構成されています。
彼らは私やあなたと同じくらいこのテクノロジーの世界に興味を持ち、少しオタクっぽい人々で構成されています。
彼らはGoogleの一角で取り組んでいるその小さな機能を披露するのがとても楽しみです。
彼らはこのように私たちが取り組んできたものだと伝えることにとても興奮しています。
本日このステージでそれを披露できることをやっと実現しました。
私はGoogleで働く人々とたくさんのちょっとした会話をしてきました。
このイベントから私の心に本当に響いたことの一つは、多くの人々がGoogleを考えるときに考えない人間的要素です。
彼らは、Googleの一人が本当にすごく興奮しているキーノートの一部である本当に素晴らしいものを作ったことを忘れています。
しかし、キーノートを見ている人々は、全体を見ています。
彼らはこれを全体としてのGoogleと見ているだけです。
ここには彼らが私たちに投げかけているすべてのものがあります。
しかし、彼らが今日行ったすべての小さな発表は、努力、興奮、これをどうやってもっと進めるか、これをもっと良くするかということでした。
それは、会社内の1人または2人、あるいは少数の個人から出てくるその種の態度です。
私自身も、ああ、これはただのGoogleだと陥ってしまいます。
これはただのMicrosoftです。
これはただの大きな無名の会社で、データを収集しようとしているだけです。
私たちは皆、それについて言っている、どんな物語でもあなたが遊びたいと思うものを。
この会社は、本当に役立つと思われるものを構築しようとしている個々の人々の集まりです。
それが基調講演の外での多くの副次的な会話から得たものです。
このビデオから皆さんに持って帰ってほしい一つのことは、Googleをこの巨大企業として見るのは簡単だということです。
しかし、このイベントに参加して、これらのものを構築している個人と話し、彼らが何を構築しているかに対する彼らの興奮と熱意を聞くのはとても満足感があります。
それが、私にとってGoogleが全てについていることです。
なぜ私が直接ここにいたいのかというと、それを直接体験したいからです。
私はこれらのものを構築している人々と話したかったのは、これらの人々が自分のやっていることを愛しているからです。
それに情熱を持っています。
彼らは助けになるものを作りたいと思っています。
彼らはそれを世に出すことを楽しみにしています。
それが私にとってGoogleがすべてだったことです。
それが今日の私からの全てです。
お楽しみいただけたら嬉しいです。
おそらく、Google I/Oから興味深いと思ったことについて最新情報を得られたことを願っています。スキップしたものもありますが、それらはあまり印象的ではなかったものでした。
おそらく、これで良い概要が得られたでしょう。
本当に感謝しています。
もしこの動画が気に入ったら、高評価をしていただけると嬉しいです。そして、A.I.の最新情報を得たり、これらのイベントや最新のツールなどについて最新情報を得たい場合は、このチャンネルに登録を検討してみてください。
本当に、本当に感謝しています。
一緒に出かけてくれてありがとう。
次の動画で会いましょう。
さようなら。