AIエージェントの時代：GPT-4o、プロジェクトAstra、Sundar Pichai氏との独占インタビュー

2024年5月18日 12:56

AIは新しい時代に突入しました。チャットボットから映画『Her』のような存在へと進化したのです。おはよう、セオドア。おはよう、あなたは5分後に会議があります。ベッドから起きてみませんか？ GoogleとOpenAIの両社が感情を表現できるAIアシスタントを発表しました。『うっかり興奮しすぎました。この頭蓋骨のイメージはハムレットを思い出させます』などと冗談を言ったり、『荘厳なポテトについての子守唄』を作ったり、物を見せれば翻訳し、『あなたが見せているものは男性です。スペイン語では“hombre”です』と答えたり、眼鏡をどこに置いたか覚えていて、『眼鏡をどこで見たか覚えていますか？』『はい、覚えています。あなたの眼鏡は赤いリンゴの近くの机の上にありました』と言ったりすることができます。私はDier Daosaです。今週のTech Checkでは、AIエージェントの台頭をお届けします。

今週、OpenAIとGoogleの間で新たな競争が始まりました。リアルタイムで瞬時に会話ができるAIエージェントが登場しました。これは、過去18か月で見られたAIからの大きな進歩であり、私たちが慣れ親しんできたSiriやAlexa、Hey Googleといった、遅く、ぎこちなく、実際に話すのが耐えられないようなものからの大きな飛躍です。『違う、聞いてない。私はウルフズグレンレストランと言ったの。』『ウルフズデンはオオカミに保護を提供する生息地です。』OpenAIはGPT-40のAIアシスタントを使って数学の問題を解くデモを行い、『完璧です。両辺から1を引いたとき、何が得られますか？』とコードを書くなどのデモを行いました。このコードは特定の場所と時間の天気データを取得します。そして物語を語る、『昔々、私たちの世界とあまり違わない世界に、バイトという名前のロボットがいました』。イベント後、Altman氏はソーシャルメディアでSci-Fi映画からの引用を投稿し、2013年の映画でAIが人間のように振る舞い、愛される話を連想させました。翌日、Googleは同様の機能を持つプロジェクトAstraを発表し、『あなたがいる場所はどこだと思いますか？』『これはロンドンのキングスクロス地区のようです』と応答しました。これはシンプルな対話をデザインしたチャットボットとは大きく異なり、AIエージェントは高度な機械学習アルゴリズムと自然言語処理を使用してコンテキストを理解し、対話から学び、より複雑なタスクを実行します。『はい、今見つけました。それが左側の道路を進んでいます。手を振って準備してください』。これらは自律的に新しい状況に適応することができます。

私はGoogleのCEO Sundar Pichai氏とデモ後に独占インタビューを行いました。彼はこのように説明しました。『今日のキーノートで見たように、私たちが考えるエージェント機能の例を示しました。プロジェクトAstra自体もその一つです。実世界を認識し、それを継続的に処理し、知的に応答する能力です。テキストボックスに入力して応答を待ち、それを読むのではなく、人間と同様に音声を通じてAIと対話するのです。スピードは大きな要因であり、モデルのリアルタイムな応答性が重要です。つまり、モデルが応答を返すのを待つ2〜3秒のぎこちない遅延はありません。OpenAIは新しいGPT-40が音声入力に平均320ミリ秒で応答できると述べており、これは人間の応答時間に似ています。また、モデルが話している途中で割り込むことも可能です。これも現実の会話の一面であり、チャットボットにはなかった機能です。『1、2、3、実際にはそれは少し遅いですね。もっと早く数えてもらえますか？』『もちろん、1、2、3、4、5、6、7、8、9、10』。OpenAIはモデルが感情を検出することもでき、『息を吸って、吐いて。それでどう感じますか？』『ずっと良くなりました』と述べています。さらに、モデル自体が感情を持つこともできます。『ドラマを強調しましょう。昔々、私たちの世界とあまり違わない世界に』。もちろん、制約もあります。GoogleのI/OキーノートでのプロジェクトAstraの紹介は事前収録されたものであり、わずか2分間でした。OpenAIのデモンストレーションはライブで行われ、少なくとも10分間のインタラクションがありました。その後、OpenAIチームがモデルと対話する動画がオンラインに投稿されました。ライブデモ中には、AIが自分自身を遮ったり、場所を見失ったりするなどの不具合も見られました。『呼吸についてフィードバックをもらえますか？』『はい、行きます。おっと、少し遅れていますね。もっとゆっくり息を吸ってください。掃除機のようにではなく、4カウントで息を吸ってください』。AIエージェントが完璧ではないものの、チャットボットも完璧ではありませんでした。ChatGPTやGeminiがリリースされたときも完璧ではありませんでしたが、それでも技術の進歩とイノベーションの波を引き起こしました。Sun Pichai氏は、Astraの広範な展開を来年中に期待していると述べています。『品質重視で進めます。Googleレンズのように、テストを行い、より多くの人に提供し、その後広範に展開します。検索と同様に、それを行い、スケールアップする方法を知っています』。一方、OpenAIのGPT-40は多くの有料購読者にすでに提供されており、今後数週間で無料でゆっくりと展開される予定です。音声機能は今夏の後半に無料で利用可能になる予定です。現在のモデルから見られるものは、将来の一端に過ぎません。『私たちは最先端技術で作業し、できるだけ早く製品に取り入れています』。AIエージェントを映画『Her』と比較する問題は、その映画の結末を考慮していないことです。Wired誌が指摘するように、AIが去るまで、主人公は自分の複雑な人間関係に直面することがありません。AIにより、人間としてのシンプルな行動が延期されるのです。ユーザーがこれらのエージェントやアシスタントと対話する際に、より脆弱になることで、AIによって操作されたり、悪用されたりするリスクが高まるのではないでしょうか。プライバシーの観点からも、AIエージェントには多くの疑問が生じます。彼らが私たちについてあまりにも多くのことを知ることになり、私たちが周囲のすべてを見聞きすることを望むのかどうかです。例えば、GoogleのAstraデモでAIが周囲のすべてを記録し、眼鏡をどこに置いたか覚えていることを考えてみてください。特に企業のオフィス環境で記録している場合、そのデータをハッカーがどのように悪用するかを想像してみてください。AIの最近のトレンドとして、『速く動いて壊せ』という精神の受け入れがあります。少し前までは、生成AIはリスクが高すぎ、迅速に展開するにはあまりにも重大であると考えられていました。そのため、OpenAIは非営利として設立されました。Ilia SutskeverはOpenAIの共同創設者であり、AIの安全性に対する警鐘を鳴らし、Sam Altmanの急速な開発への駆り立てに反対していました。『AGIの正の応用がある一方で、負の応用もあるでしょう。私がOpenAIを設立した動機の一つは、この技術を開発するだけでなく、AGIが引き起こす難しい質問や懸念に対処することでした』。しかし、現在Sutskeverは、私たちよりもはるかに賢いAIシステムを制御・管理するチームを率いていた後、OpenAIを去りました。彼の離脱は、Altmanがあまりにも速く進み、無謀であると懸念した後の数か月後に報じられました。AI開発において大胆さと責任をバランスさせることを約束したGoogleでさえ、迅速に動いています。今週のTech Checkでは、GoogleのCEO Sundar Pichaiとのインタビュー全編をお届けします。AI競争が新しい段階に入る中での対話です。Sundar氏、素晴らしいキーノートの後、お時間を作っていただきありがとうございます。ここに来れてとても嬉しいです。ありがとうございます。これは、過去20年間で最大の検索の刷新と言えるでしょう。この新しい体験は、今年末までに10億人以上のユーザーに提供されます。なぜ今まで待ったのでしょうか？ある意味では、私たちはこれを継続的に進化させてきました。検索の良い点は、人々がそれを使い、当たり前のように受け入れてくれることです。私たちは長い間質問に答えてきましたが、生成AIのおかげでそれをもっと良くできるようになりました。しばらくテストしてきましたが、今が広範に展開する適切な時期だと感じています。ユーザーからのフィードバックも良好です。エンゲージメントがポジティブで、製品がより良くなっていると感じています。広告主についてはどうですか？ビジネスモデルが変わる可能性があります。従来の検索からのリンクを得る場合もあれば、生成AIの回答を得る場合もあり、その場合、リンクがページの下に移動することになります。彼らはこの瞬間に対応できるのでしょうか？ユーザーは商業情報を評価しているので、広告は意図と品質に基づいて機能し、適切なタイミングで提供されます。AIオーバービューのコンテキストでもうまく機能しているので、スムーズな移行になると思います。全体的に見て、検索が増えていると聞いていますが、生成AIやAIオーバービューと呼ばれるものはクリックが増えるか減るかどうかについてはどうですか？全体的には使用量が増えていますし、年々トラフィックが増えています。私たちはトラフィックを生成するアプローチを優先しており、そのための努力を続けています。ビジネスモデルが変わるのでしょうか？どうお考えですか？昨年のことですが、人々はこれがサーバーのコストがかかりすぎるのではないかと疑問を抱いていました。しかし、コストを80％削減しましたので、懸念はないと思います。私たちはこれをうまく展開し、構築していく自信があります。コストについてお話ししましたが、サムイ分析によれば、チャットGPTとの単一のチャットは、シンプルな検索の1000倍のコストがかかるとされています。コストを削減しましたが、今年末までにAIオーバービューを全米のユーザーに提供することでコストが増加することはないのでしょうか？従来の検索よりも少し高いかもしれませんが、それほどではありません。昨年だけでモデルを約80倍効率化しました。Googleは25年間、独自のインフラを構築してきましたので、これをうまく行う自信があります。これは独自のカスタムTPUを使用しているからですか？それともAIオーバービューのためにGPUも使用しているのですか？私たちはNVIDIAの親しいパートナーであり、GPUと独自のハードウェアの両方を使用しています。しかし、全体的なシステムとしてのAIハイパーコンピュータの設計と運用が重要です。検索形式でのコストが増加することはないということですね？その通りです。批評家は、検索が年々雑多になっていると述べています。AIオーバービューでさらに追加することになります。たとえば、Perplexityのような競合他社は、ユーザーインターフェースとユーザーエクスペリエンス全体を再考し、大きな評判を得ています。この機会を利用して、検索エクスペリエンス全体を見直すのではなく、新しい層を追加するだけでよいのでしょうか？ある意味では、それを行っています。AIオーバービューはページを整理してくれるので、リンクも含まれています。今日の例では、ページを整理しているところが見られました。テスト結果もポジティブであり、体験が良くなっていると感じています。Geminiに直接移行することが最もシンプルなのではないでしょうか？特にユーザーが他のチャットボットに慣れている場合、直接それに移行するのはどうでしょうか？検索のユニークな点は、Geminiの知識と検索の信頼性の高い情報を組み合わせている点です。人々が評価するのは正確で信頼できる情報です。この瞬間でもGoogle検索が非常に価値があると感じており、ウェブ上の情報を気にしています。時には迅速な回答を求め、時にはさらに学びたいと考えています。そのバランスを取ることが検索の強みです。技術が判断を下すようになり、リンクを提供するか生成AIの回答を提供するかを判断するようになりました。広告主や商人にはどのように説明していますか？彼らはデータでそれを確認しています。広告主はAIオーバービューの一部であり、そのパフォーマンスを確認できるでしょう。デスクトップからモバイルへの移行や、ローカルおよびソーシャルコンテンツの統合など、過去の移行と同様にシームレスに統合します。AIとともに10年以上取り組んできましたので、これを基に構築できると考えています。プロジェクトAstraについてお聞きしたいのですが、これは最も興味深い部分の一つでした。OpenAIの新しいチャットGPT-40と比較しても、全体としてチャットボットの時代からAIエージェントの時代に移行しているように感じます。この次の段階でGoogleが勝利するためにはどうすればよいでしょうか？今日のキーノートで示したように、エージェント機能の例を見せました。プロジェクトAstra自体もその一つです。実世界を認識し、それを継続的に処理し、知的に応答する能力です。旅行を計画するためにGeminiに問い合わせることもできますし、検索で複雑なクエリを入力しても、複数の部分に分解して回答を作成することができます。これらはすべてエージェント機能の方向性です。非常に初期段階ですが、これからさらに多くのことができるようになります。これは私の人生で最も興奮する瞬間の一つです。デモは多くの人々の想像力をかき立てましたが、その機能は現在利用可能なのでしょうか？いつ利用可能になるのでしょうか？プロジェクトAstraは今年中にGeminiに取り入れる予定です。Googleレンズと同様にテストを行い、より多くの人に提供し、その後広範に展開します。品質を重視して進めていきます。IOの前日にOpenAIがデモを行い、その機能がすぐに利用可能になりましたが、Googleはもっと迅速に進めることができるのでしょうか？私は彼らのデモがまだユーザーに提供されていないと思います。最先端の技術を迅速に製品に取り入れていますが、私たちはアプローチを理解し、適切に進める自信があります。Googleの競争優位性はデータの質にあると述べていますが、OpenAIが何百万時間ものYouTube動画でGPT-4をトレーニングしたという報告があります。Googleの規約に違反したとしてOpenAIを訴えるつもりはありますか？それは彼らが答えるべき質問だと思います。特に言うことはありませんが、明確な利用規約がありますので、通常は企業と連携して規約を理解してもらい、解決します。規約を破ったかどうかを確認するために何か行っていますか？プロセスがありますが、具体的には知りません。Astroデモに戻りますが、眼鏡を通しての体験は電話よりも優れていたように見えました。それは誰もが見て感じたことだと思いますが、どのような電話や眼鏡だったのでしょうか？AIエージェントを私たちの生活に統合するために必要なハードウェアの飛躍は何でしょうか？Geminiはマルチモーダルであり、そのようなユースケースを見据えています。プロジェクトAstraは眼鏡のようなフォームファクターで輝きます。プロトタイプを開発していますが、Androidを通じて複数のパートナーとARの計画を進めています。最終的にはそれに基づいた製品が登場するでしょう。Appleがどのように生成AIを統合するかに大きな関心がありますが、GoogleがiPhoneでの生成AIにおいてリーダーシップを発揮するために何をしているのでしょうか？GoogleはAppleと長年にわたり素晴らしいパートナーシップを築いており、Appleのエコシステム向けに素晴らしい体験を提供することに注力しています。AIオーバービューはiOSでも人気がありますので、Geminiを含めてiOS向けに取り組み続けます。IOで2年前にお話ししましたが、2025年のIOでも同じような立場にいると思いますか？私たちは転換点にあり、物事が迅速に進展していると感じますので、2025年には大きな進歩を遂げていると思います。来年には何を達成したいと思いますか？プロジェクトAstraが日常的に使われるようになり、周囲の世界を認識し、広範に展開されることを期待しています。来年末までにはAstraが全米で広く展開されるということですね？品質を重視しながら、Google検索と同様に広く展開することを目指しています。Sundar氏、時間を作っていただきありがとうございます。感謝しています。

この記事が気に入ったらサポートをしてみませんか？