GoogleI/O 2024解説

長濱由成（ながはま）

2024年5月15日 09:49

昨日OpenAIの発表があったと思えば、
今日はGoogleの発表会。。

すっかり寝不足もしくは寝落ちした方も多いと思います（笑）ので、このnoteで今回の発表の詳細を分かりやすくお伝えします。昨日アップしたOpenAIの解説も好評ですので、ぜひ併せてご覧ください。

01.はじめに（総括）

そもそも昨年のGoogleI/O解説記事でも触れた通り、Googleの持ち味はなんといっても「Googleというプラットフォーム」そのものにあります。

OpenAIがChatGPT単体でサービス展開をするのに対して、GoogleはGmailやGoogleマップ、GoogleワークスペースにもちろんGoogle検索まで。

色々なアプリケーションを連携する形で自社の生成AIを導入し、他社との差別化を明確に図っていると思われます。なので、GoogleのAI評価は単なる【性能差】ではなく多くの点を考慮して見ていく必要があるのです。

XでAI等に関する発信をされる方に「Jim Fan（ジム・ファン）」さんという方がいますが、彼のツイートを見るとやはりGoogleで評価するべきはそのプラットフォームとの親和性にあると言えるでしょう。

One thing Google is doing right: they are finally making serious efforts to integrate AI into the search box. I sense the agent flow: planning, real-time browsing, and multimodal input, all from the landing page. Google's strongest moat is distribution. Gemini doesn't have to be the best model to be the most used one in the world.

【日本語訳】
Googleがついに本気でAIを検索ボックスに統合しようとしているのは、いいことだと思う。計画、リアルタイムのブラウジング、マルチモーダル入力といったエージェントフローが感じられる。Googleの最大の強みは、その広い普及度にあるんだ。Geminiが世界で一番使われているモデルになるためには、必ずしも最高のモデルである必要はないんだよね。

https://twitter.com/DrJimFan/status/1790441325386760230

なので、今から色々紹介していく事柄を多面的に見ていくと「どのようにGoogleが戦おうとしているか？」というのが見えてくると思います。

では、いよいよ本題へ！

02.Gemini関連

Googleの生成AIであるGemini（ジェミニ；ジェミナイ）は2023年12月に「Ultra」「Pro」「Nano」の3種類が発表されており、その数ヶ月後には100万トークンを記憶できるPro版が世間に公開され、既に150万人以上の開発者が利用しています。ChatGPTの対抗馬として期待されるGeminiは今回の発表によって主にトークンの数において進化します。

・脅威のトークン数

まず、目玉である「トークン数の向上」から話を進めます。そもそもトークンというのは【生成AIの記憶できる容量の限界】のようなもの。

この数字が大きければ大きいほど私たちは長いテキストや画像をAIに渡すことができますし、AIも記憶を保持できるため適切な回答を返すことができるのです。細かく言えば説明事項は多いですが、今はそのような理解でOKです。

ちなみに、比較対象としてChatGPTが最初に登場した2022年11月段階でのトークン数は最大でも約4096トークン、現在使えるGPT-4でも12.8万トークンとされています。

さて、そんな中今回Googleが魅せたのは最大200万トークンという、もはや訳のわからない数字。後々に話の主役となるGemini1.5 Pro（現在の最高品質）が100万トークンだったので今回だけで倍になったのです。

日本語の場合、最低でも70万文字ほど入力できるということを意味するので、たいていの本や資料は読み込めることになります。（＊概ね、新書やビジネス書が7〜10万文字と言われてるので）。まぁ、こんな調子なのでPDFは約1500ページ読めるとのこと。

ん、、、1500ページあるPDFって、
世の中にそもそもありますか？（笑）
#内閣府の資料でしょうか。。

ChatGPTの場合、少し工夫しないとPDFを何個も渡すのは難しいですが、Geminiは複数のファイルを一気に渡して作業させることが可能とのこと。トークン数と周辺の小回りにおいてはとりあえずGoogleの圧勝と言って良いでしょう。

・Geminiに新モデル追加

さらに、Gemini1.5 flashも併せて発表。旧バージョンであるGemini1.5 Proよりも軽量化と高速化を実現とのこと。既にデモも一部できるそうです。この辺りから幅広いユーザーへどう届けるかを試行錯誤しているGoogleの様子が見てとれます。

・全体的に性能は向上、しかし。。

そして、Gemini1.5 Proはトークン数の増加だけでなく、推論能力やコードの記述、音声や画像の理解も向上したとのことです。この辺りはこれから数ヶ月かけてGPT-4oとの比較が盛んになることでしょう。ただ、個人的にはGPT-4oの文字認識や音声などかなり精度が高いことは昨日で体験済みなので、下手に期待しすぎないのが良いと思います。GPT-4oと並ぶ程度かなと（あくまでこの辺りは正直に…）。

03.Project Astora

今回の目玉の一つといえるGoogleの新たな計画「Project Astora」は、まさに生成AIと私たち人類が共存していく中での未来の生活の様子を見せてくれます。

スマホのカメラを通してリアルタイムで「あれは何？」と尋ねたり、カメラ付きのメガネを掛けることでスマホなしでも色々な作業をAIと共にできたり。会議中のホワイトボードにも意見を投げれる。

まさにAIが私たちの「アシスタント」として
ガッツリと共存する存在に。

昨日のOpenAIの発表でも似た構想が話されていますから、この時点で世間は概ねこの方向に進むことがわかります。以下のデモ映像なんかは近未来的でワクワクしますよ。^^

04.Googleも動画生成に挑む

さて、YouTubeを外で見ていると、Twitter等に比べて凄くギガを消費して痛い思いをした人も多いんじゃないでしょうか？

それもそのはず、動画はテキスト（文字）や画像に比べてそもそもデータのサイズが大きいからそれだけ動画の再生にも必要になってくるのです。普段の再生ですら多くデータを使うとすれば「動画生成AIを作るのはどれだけ難しいのか」ということは素人なりにも理解できると思います。

そのため、動画特化のRunwayなど一部のサービスを除いて中々現状でも最適のサービスはありません。OpenAIがSora（ソラ）というサービスを発表しましたが、まだ普及には至っていません。また、有名人が喋っているように見せるなど「ディープフェイク」の技術への対策もしなければならないため、大手であれほぼ全社苦戦していると言えるでしょう。。

さて、そんな中で今回新たに発表されたVeo（ヴィオ）はGoogleによる動画生成に特化したAIです。まだ映像に粗はあるものの、1080pの画質で1分を超える動画も生成できるのはかなり技術が優れていると思います。以前からたくさん研究されてきた技術がひとつの製品の形に落ち着いた感じがします。ただ、動画は最低でもあと1〜3年かかっても全然不思議じゃないので期待しすぎず気長に待つのが良いでしょう。^^

05.AIの生成物だと見破るための透かし機能

そして、見逃しちゃいけないのはSynthIDという「透かし機能」の存在。先ほどから話しているように、生成AIによるコンテンツは既に人間の目でも見分けがつかないほどリアルっぽく作れてしまいます。それがクリエイティブを創造することもあれば、詐欺や事件に使われかねません。

そこで、Googleは「これはAIによるものです」というある種の【証明】を生成物に取り付けることにするそうです。これは、以前Bingで画像生成にした際に行われた取り組みと似ています。下の画像の左下の部分にうっすらとBingのロゴが入っていると思いますが、これが以前の透かしです。

こういった安全面での取り組みをいち早く実行する姿勢は昨年のGoogleI/Oでも見受けられており、これはGoogleのAIリード企業としての矜持といえるでしょう（この辺りのスピード感は特に尊敬）。

なお、このSynthIDはビデオだけでなく音声や画像、
テキストにも付く予定とのこと。

では、具体的にどうやって？

例えば、画像の場合は人間の目には知覚できないデータを直接ピクセルの中に注入し、色の変更やフィルターを使用された後でも「AIの生成物か否か」を判定できるようになります。

音声の場合も生成する段階で人間の耳には聞こえないデータを直接音の波形の中に組み込み、音声の圧縮や加速・減速など多くの操作を通しても突破されないように生成されます（凄すぎっ）。

テキストにおいては生成の段階で（文章の不自由がない程度で）意図的に生成の確率を変動させ、その出力結果を見ればSynthIDによる操作が介入していると分かるように作られるそうです。この辺りは僕もまだイマイチ理解していないので、いずれきちんと解説できればと思います。

06.Google各種アプリとの連携

さて、ここまで来ればほぼ終了なので
最後に、各種アプリとの連携について軽く。

なぜ軽く扱うかというと（あくまで個人的には）Googleが各種アプリの連携を強めて、どこでもGeminiが使えるように強化中です！みたいなイメージで十分だと思っているからです。

例えば、Gmailで返信や検索が簡単になるとか、Googleフォトで画像をさらに探しやすくなるとか、GoogleスプレッドシートにGeminiがより使えるようになるとか。。

そして、Googleの検索エンジン自体、表示する検索結果の最初をGeminiの出力にする「Overview」の追加。写真だけでなく動画を通した検索も可能に…などなど。

少し面白い部分だと「YouTubeの音声をGeminiが要約可能になり動画を見る必要性が減る」といった部分。この辺りは「活字が苦手な人が動画を見る」という前提に立つと利用者はそこまで増えない気がしているので、あえて割愛。

Android端末等でさらにGeminiなどを使いやすく！というのもiPhone国家の日本にはあまり刺さらないと思って割愛します。（笑）

もちろんそれぞれの機能は凄いのですが、方向性は2023から同じなので詳しくはそちらを見てください。色々詳細に書いています。

07.最後に

さて、色々と機能を見てきましたが皆さんの感想はどうだったでしょうか？個人的にはやはり200万トークンとSynthIDによる「透かし機能」は見どころだったかなと思います。

昨日のOpenAIが25分ほどの発表会だったのに対してGoogleは2時間だったのでかなりボリュームも多かったのですが、初心者の方にも（雰囲気だけでも）伝わっていれば嬉しい限りです^^

これからも有用な生成AIの話をいくつもしていきますので、ぜひフォローしてお待ちいただければ幸いです！

【関連記事】

この記事が気に入ったらサポートをしてみませんか？