Google IOでの発表を考察する -OpenAIとGoogle発表から読み取るべき両社の戦略の違い【中編】

2024年5月22日 09:41

　5/14火曜日早朝のOpenAIの発表、5/15水曜日早朝のGoogleの発表について、さまざまな考察がなされています。両社の目指す方向性がおぼろげながらも感じ取れたので、【前編】を書きました。

　【中編】（＝今回）ではGoogleの発表の意味、【後編】では、両社の発表から読み取るべき戦略の違い、を３部作構成でお話伝えします。

　中編では、前編のOpenAI社の発表に続き、翌日に開催された、Google IOでの発表について、感じたことを書いてみたいと思います。

多すぎる発表項目、なかなかの充実感

　前日にOpenAIがイベントを持ってきたこと、発表項目が多すぎたこと、から、OpenAIに比べると、話題になってない感がありますが、なかなか充実していましたね。

　イベント終了後、Googleは自社の公式ブログで発表内容を「I/O 2019で発表された100のコト」としてまとめていました。

　さすがに、100個も説明はできませんが、分野別で申し上げると、

ハードウェア
Googleアシスタント
人工知能(AI)と機械学習(ML)
Googleニュース
AR(拡張現実)とGoogleレンズ
プライバシー
Android
Chrome OS
広告
アクセシビリティ
その他の開発者発表

　その他を除くと、10個の分野に分けて、様々な発表がされました。

　とても、読み切れませんよね（笑）。ですので、この中で、僕が注目すべきと感じたトピックスだけ説明します。

Geminiアップデート

　まずは、Googleの大規模言語モデルであるGeminiから。Gemini（英語ではジェナミナイと発音します）の性能が大幅に上がりました。

　Geminiは結構複雑で、以前から、高機能順に、Ultra、Pro、Nanoの3種類のモデルが、これまで出てました。有料（20ドル）で使えるのは、この中のUltraでした。

Gemini Pro 1.5正式版リリース

　しかし、その後、Gemini Pro 1.5が登場して、GoogleのAIスタジオという開発者向けに、こっそり（？）とリリースされていて、僕もUltraを解約して、無料のGemini Pro 1.5を使ってましたが、ようやくこれが正式リリースされたということですね。

　では、何がアップデートされたかというと、入力できるデーター量が、今までの100万トークンから、200万トークンと2倍になりました。

　200万トークンといわれてもピンとこないので、例えるなら、
　・2時間分のビデオ会議の文字起しができる
　・300ページ分のPDFファイルを一気に理解できる
　・単行本2冊を丸ごと理解できる
　と書けば、そのすごさがわかるかと思います。

　ちなみに、Chat-GPT4oは、12.8万トークンなので、その差は15倍以上。長文が得意と言われていたClaude3でさえ20万トークンです。
　
　今まで、Chat-GPTを使って、会議の文字起しをする場合、会議の音声データーを数個に分割しては、文字に変換を繰り返さないといけなかったのですが、その作業が大変でした。

　加えて、分割したものをくっつけて、会議の議事録を作成すると、データーが分割されているため、議事録や要約文がおかしくなることがあります。

　今回、Geminiが200万トークンを一気に入力できるとなると、それだけ手間が減り、要約や議事録の精度の向上が大いに期待できるでしょう。

　となると、音声や動画は、Chat-GPTでなくGeminiを使いたくなりますね。

　しかも、今回のGeminiは、日本語の言語能力も上がりました。Claude3に比べてもあがってるし、Chat-GPT4oと比べても、それほど遜色のないレベルです。

　こうなると、文字の処理には、Chat-GPT4o、動画や音声の処理には、Gemini Pro1.5という使い分けの二択になってくるでしょうね。Claude3を先週ほめたばかりだったのですが…（笑）。

　しかし…1年前、入力できるトークン数って4000トークンぐらいでしたよね。覚えてますか？それが1年もたたず、500倍の200万トークンに増えるなんて…生成AIの進歩のスピードは本当にすごいです。

　おまけにコストも半額になりました。このコスト競争も、今後激化することでしょうね。

Gemini 1.5 Flashのリリース

　今回の軽量発表で、Gemini Pro軽量を軽量・高速化した、Flashというモデルが登場しましたが、これが何気に使えそうです。

　スピードはGTP3.5よりも高く、それでいて、言語精度は、GPT4の初期と同じぐらいあるというのが、僕の使ってみた感想です。

　おまけに、この能力で、GPT3.5よりかなり安い利用料金なので、ビジネスユースなら、GPT3.5からGemini Flashに乗り換えるのもありです。

　ビジネスユースだと、社内情報のFAQなどでは、言語精度はそれほど求められませんよね。社内で使うだけなので、しかも知りたいことが理解できれば、説明が雑でもかまわない。それなら、Gemini Flashでもいいのです。

Gemini Nano

　Geminiの中で最も軽快に動くAIが新たに、Google Pixel、スマホにインストールされます。
　
　このデモで面白いなぁ、と思ったものがありました。「オレオレ詐欺」のような詐欺電話と思われるような電話がかかってきたら、スマホ内蔵のAIが、会話内容を判断して「詐欺の電話です」と警告するシーンが紹介されていました。

　詐欺電話、これからの高齢化社会では頻発しそうですよね。こういう日常に、Geminiが使えるのは便利極まりないです。Gemini Nanoはスマホで動くので、ネット経由で会話をGoogleに盗聴されるわけではないのが、このデモのスゴイところです。何気に、いいデモでした。

GoogleアプリとAIの融合

　G-Mailアカウントは多くの人が持ってますよね？　Googleマップ、ないと困りますよね？　Googleフォトは？　Googleレンズは？．．．僕は毎日使ってます。

　これら日常生活に欠かせない、GoogleのサービスにAIであるGeminiがかなり組み込まれました。これにより、日常生活でより気軽に便利にAIが使えるようになります。

　例えば、Googleフォトで写真の管理をされてる人は多いと思いますが、「娘の成長記録を写真でスライドショーにして」とお願いすると、娘さんの写真を時系列に並べてスライドショーとして見せてくれたりする、という具合です。

Google検索の進化「AI overview」

　Googleサービスで一番使うのは、検索です。でもこの検索機能が、生成AIに奪われようとしています。

　例えば、僕は、最近、何か検索するときに、ググらずに、「Perplexity AI」を使うことが多くなっています。

　Perplexityは、検索エンジン＋生成AIを一緒にしたサービスで、実に便利です。何か探してほしいことを入力すると、検索するだけでなく、検索結果を、Chat-GPTやClaude3などが文章に取りまとめて、その原文となるサイトと共に表示してくれます。

　Google検索と違って広告は入りませんし、ググってから、広告ページの下にあるページをクリックして、また戻って別のページを見て、といった作業から解放されます。

　Googleの売上の80％はGoogle検索結果で表示する広告での収入です。これが、生成AIn出現での出現で、検索ビジネスが変わろうとしています。

　OpenAIもこのビジネスを狙って検索エンジンを開発してるといううわさが流れていますね（すでに、search.openai.comというドメインを取得済みです）。

　Perplexityや、OpenAIに、検索機能が奪われるぐらいなら、と、自ら先手を打って、登場したのが、この「AI overview」機能。

　試用版が出てるのでご覧になってる人も多いと思いますが、検索結果の前に、検索に対する要約文をAIが自動生成して一番上に表示されるようになります。

　これは、もろ刃の矢ともいえます。これが普及したら、ユーザーは広告を見なくなりますよね。Googleはどうやって生き残るのでしょうか？

AIエージェント機能（Project Astra）

　もし、ECで買った靴のサイズがあわなくて返品したい時、今までなら、
　　①靴を買ったときについてきた領収書やメールを探す。
　　②その商品の販売店の返品条件、方法を確認する。
　　③お店に返品以来のメールを出す。
　　④返品するために宅配業者に引き取りのお願いをする
　ということをすべて人手でやってましたよね。

　これが、スマホにGoogleの各種アプリを入れておいて、カメラ機能でその靴の写真を撮るだけで、あとは何もしなくても、

・写真から商品をGeminiが特定し
・その商品名が記載されたG-Mailを見つけ出し
・G-Mailに記載されている販売店を見つけて
・返品の依頼メールを送り
・同時に宅配便に引き取り依頼をメールでして
・引き取り日を忘れないように、Googleカレンダーに入力する

　といったことが、GoogleのアプリとGeminiga連携して、僕たちのかわりに自動的にやってくれます。

　便利ではないですか？便利ですよね（笑）そんなデモがありました。

　Googleのサービスは、僕たちの日常に入り込んでいます。ですので、そこにAIが使えれば、こういったことが自動化される。そんな夢とも思えるような現実を、Googleは具体的に提示してくれています。

　実に実用的な使い方をGoogleは今回、多く見せてくれました。消費者との接点を持っている、Googleしかできないことですよね。

　こういったことを可能にしているのが、エージェント機能型AIです。

　聞きなれない言葉かもしれませんが、要は、人が何かお願いすると、AIがそのお願いの意味を理解し、具体的な指示をしなくても、勝手に仕事をしてくれるのが、AIエージェントです。

　今年から来年にかけては、このAIエージェント機能がブームになります。

　Googleは、Googleアプリやスマホなどの身近なデバイスと連携し、このAIエージェント機能を高めるため、「Project Astra」と銘打って、AIエージェントを推進すると宣言しました。

　この動画のデモでは、スマホのカメラで視覚共有をして、Geminiに自分の目の前に起きてることを理解し、説明してくれたり、アドバイスしてくれてますが、このような身近にAIが寄り添って、自分の補助をしてくれるのが「Project Astra」のコンセプトです。

そのほかのポイント

　ほかにも、さまざまな発表がありましたが、

・Imagen3（画像生成）：DALLE-3に並ぶ画像生成機能
・Music AI Sandbox（音声生成）：誰でも言葉で音楽が作れる
・Veo（動画生成）：OpenAIのSORAの対抗。FHDの動画を1分以上作れる

　など、OpenAIに負けじとサービスを一気にリリースしてきましたが、まだ使えていないので、使えるようになったら、またご紹介します。

　個人的には、Veoに注目しています。Googleは画像系、マルチモーダルでは、OpenAIの先にいってるので、シナリオを書いたら、2時間の映画が完成する、といったことも数年後には現実化しているかもしれませんね。

　Googleの発表は、どれも身近で、地に足の着いた、現実的なAIの使い方を提示してくれました。

　次の「後編」では、OpenAIとGoogleの今回の発表で見えてきた、戦略の違いと、今後の生成AIの進んでいく道について考察します。

この記事が気に入ったらサポートをしてみませんか？