見出し画像

GoogleIO 2023まとめ（視聴メモ）

2023年5月11日 14:11

こちらを視聴しながらメモしてみました。
※英語力が乏しい人によるメモレベルですので、正確な情報は記載してある動画時間あたりをご視聴してみてください。

It’s go time! 🎉 #GoogleIO is here — follow along for all our news and updates. https://t.co/GpRXHUVKxc
— Google (@Google) May 10, 2023

本日は15プロダクトについて発表がある模様です

11:55あたり

12:30あたり

主にAIを使って以下のサポートをしていく

知識や学習体験の向上
クリエイティビティ、生産性の向上
イノベーション促進
ビルド・デプロイ周りの支援

Gmail（05:21~）

Gmail

Smart Reply: 返信する際にメール下部にあるコマンドで返信文の簡易生成ができる
Smart Compose: 返信内容を考える際に、テキスト補完もされる
Help me write: メール内容の生成可能。テイストもいくつかのタイプで変えられる

Google Map（06:59~）

Google Mapナビゲーションの色々なところをZoomできる

その日の天気も反映してどんな感じかわかる。このルートはドライブ良さそうとか。

今年中に15都市で適用する模様。東京も対象っぽい。

Google Photos（09:09~）

SAMみたいなセマンティックセグメンテーションを使った、Magic Editor

カバンの紐とかも

簡単に消せちゃったり

雲が多かったら、取り除いて晴れにすることも。良さそう（笑）

手と滝の位置がずれてるなーと思ったら人物を少し右寄せすることもできる（笑）

他にもこの写真の場合

子どもと椅子の配置を右に寄せられる。元写真にない部分は自動生成

Google PhotosにはこれらのAI機能が備わってる

PaLM2（13:25~）

fundamental Latest Infrastructureと言ってる（直訳：基礎的な最新インフラ）

デプロイを簡易化している

PaLM2には複数のモデルがある。左から小さい順

Gecko（ゲッコー）はモバイル利用。速くてデバイスとインタラクティブに使える。オフラインでも利用できる

PaLM2は色々と学習されてる。数学もいけるっぽい。あとコードも。100以上の多言語で学習されている

コーディング支援の例

プロンプトの指定通り、韓国語のコメント付きコードを提示している

PaLM2のファインチューニングの例もあり、例えばセキュリティ知識に特化させたSec-PaLMがあったりする

メディカル知識に特化させたMed-PaLM2もある

不正答率を9倍減らすことができた模様

専門家のパフォーマンスレベルを超えてきている模様

例えば、レントゲンの写真を見せたら

こんな感じでこの写真から見受けられたことなどを返答してくれる

PaLM2はプレビュー状態らしい

Google DeepMind / Gemini（17:00~）

Google DeepMindとしてやっていくらしい

次世代の基盤インフラとしてGeminiを開発しているっぽい。多分学習中って言ってる。さらに多言語対応をして、APIも色々扱えるように計画中？英語力が乏しくて追えなかった。

大量にあるデータからそのデータを見つけるためのアプローチを検討している。それがWatermarkingとmetadataと言っている気がする。

WatermarkingはAI生成物と判断できるような透かし情報マーカのことっぽい？

Metadataはコンテンツ生成の際にも利用されるっぽい。

Bard（19:20~）

PaLM2の上で動いているBardは、数学的な計算力やReasoning能力も上がっている。

Coding with Bard

コード生成や、デバッグ、コード説明などに利用できる

20以上のプログラミング言語に対応

チェスをプログラミングするときの例。

みやすそう。コピーもちゃんとできる。

chess.Board()ってなに？と質問した結果。各メソッドについても詳細に説明されてる。

どのように良いコードにできるか？という提案。リファクタとかにも使えますよという例示っぽい。

上記の例だとコードブロックが複数に跨っていたので、それを一つのブロックにまとめてもらうこともできる（そうすると全体像が見えてコピペもしやすい）

Colabにエクスポートして実行できる。これはアツい！！

Pythonの場合、Replitにもエクスポートできるっぽい

ダークモードも対応

これはBardでメール文を作成する例。メールを作成したらGoogle DocsやGmailに下書きでエクスポートできる。良い！

Bard + toolsが来る予定とのこと。Bingの検索機能だったり、ChatGPT Pluginsみたいな他ツールと連携が可能な感じかな。

セキュリティ周りもちゃんと考えてますよとのこと

New Orleansで見るべきところはある？と質問すると

画像付きで候補地を紹介してくれる。これこそGoogle検索のチャット版って感じでいいね。

この写真画像の面白いキャプション作ってと言ったら作ってくれる。マルチモーダル良い！

他にも例えば18歳大学生だったとして、自分は何のプログラムに興味を持ちそうかを訪ねる。

するとゲームデザイン、コンピュータサイエンスなどの候補となる分野を紹介してくれる

そこでアニメーションプログラムがある大学を探してほしいと尋ねる

いくつか大学が出てくる。嘘の情報が生成されにくい工夫がされているのだろう多分。

そこでこれらのマップを見せてと尋ねる

Google Mapと連携してこれらのマップを表示してくれる。これはGood Jobですわ。

もちろん表形式にしてまとめてくれたりもする

足りない情報があれば、列を追加することもできる。この例ではschool typeが追加されました

Bardはこのように色々なサービスと連携することができるようになる予定

数ヶ月後くらいに連携できるようになるものとして、Adobe Fireflyがあるとのこと。

例えば子どもの誕生日会に際して、ユニコーンとケーキの画像を生成してほしいと依頼

するとこんな感じで画像が生成される

Bardは180カ国以上で公開されるとのこと

日本語と韓国語にも対応するとのこと

それだけではなく、40言語にも対応していくとのこと。

Google Workspace（30:57〜）

ここまではBard上で色々なサービスと連携できるという話。
ここからは各プロダクトの中でどのようにAIを活用していけるのかという話。

Google Docs（32:00~）

google docs。求人作成のユースケースを想定して紹介してくれるとのこと

こんな感じでボタンがあり

ボタンをクリックすると、テキスト入力ができるようになる。

例えばシニアレベルのtextile desingerと入力すると

このように求人内容が生成される。INSERTをすればGoogle Docsに反映される。

Google Sheets（33:00~）

google sheets。ドッグウォーキングビジネスというシーンでの利用デモ

それぞれのドッグ情報を登録したり、どれくらい散歩したかなどを記録する必要がある

チャット機能が搭載されたGoogle sheets。右サイドバーにチャットエリアが登場

こんな感じで入力すると
（直訳：料金付きドッグウォーキングビジネスのための顧客とペットの名簿）

サクッとこんな情報が提案される。もちろんINSERTしないということも可能。

Google Slides（34:00~）

50周年アニバーサリーでのスライド作成を想定

このようにテキストエリアを選択したりすると、右サイドバーにチャットが表示される

母が好きなピザ情報についてテキスト入力

こんな感じで画像がいくつか生成される。これをインサートすることが可能

スタイルを変更して再度生成することも可能。いくつかのスタイルがある

Photographyの場合こんな感じ

スライドが完成！

Duet AI for Workspace（35:30~）

Workspace利用者に、Duet AI for Workspaceという新サービスを提供する予定
マイクロソフトのCopilotのGoogle版みたいな印象

デモの実演が開始。Google Docsの文章がある。右上のところからチャットを開くと

記載されている文章をもとにプロンプトが自動入力され、会話がスタートする。
またいくつかの質問も提示される。

こんな感じで続きの文章かな（？）を提案してくれる。

細かいところだけど、こんな感じで箇条書きの状態でINSERTすると、

このように反映されるのも良い

Suggest images for this storyをクリックすると、物語に合わせた画像も生成可能

他にもこのようにGmailでのやりとりがあったとき、

このやりとりの内容を要約してくれる

さらに（直訳：みんなが持ってくるメインディッシュについてメモを書く）と入力すると

メール文のSheetsへのリンクを読み取って、そこのシート内容を踏まえて提案してくれるっぽい
ここでは（おそらくSheets内容に記載されている）既に考えているメインディッシュについて提案されている

スライドは作ったけど、スピーカーノートを記載するのを忘れてしまったというとき

サジェストの一つに既に、各スライドにスピーカーノートを追記するコマンドが存在している

各スライドのスピーカーノートが作成されている。問題なければINSERTして作成完了

Labs（41:30~）

Labsについてちょっと紹介されてた。

Search（42:40~）

こんな感じで色々な情報を詰め込んで検索することもできるっぽい

検索結果の一番上にこのような感じで検索キーワード文に対してのレスポンスが生成

右上のボタンを押すと、

より詳細な情報を色々と見ることができる。多分各記事のリンクと概要がずらっと並ぶ感じかな。
エビデンスとなる情報元へのアクセス性が高まる感じ。良いかも

例えば5mileの丘を越えるための良いbikeと検索すると

その検索クエリをもとに情報が生成される

生成される一つとして、検討ポイントについての判断材料を提供してくれたりする
普段は判断軸みたいなところを検索してから、購入みたいなステップを分ける必要があったけど、一括で色々と情報が得られるという点で良さそうかも

実際のbikeについてのレコメンドとかもある。Amazonみたいに評価もあって購入までいける。google shoppingとの連携によって実現

これらのレコメンドに対して深ぼっていくことも可能。follow upを押すと

会話モードに移行（画面下部などにチャットできる固定エリアが表示）
対話形式で色々と聞くことができる

例えば赤色のebikeと入力すると、

表示されているページ情報が変わり、
googleは検索クエリの前提情報を理解した上で結果を示してくれる。

バイクを選択すると、販売業者？の比較を示してくれたりもする

自転車通勤の重要性についてのSNS投稿を作成したり

（直訳：カルフォルニアバイクのハンドシグナルのクイズを作ってください）などもできる

実際のデモをしてくれるとのこと。3歳の娘が疑問をぶつけてきた想定。クジラはなぜ歌うのか

スマホだとこんな感じで表示される

記事についてもレコメンドされていたりする。こちらにもAsk a follow upありますね

会話モードに移行ができ、このように会話を続けられる

会話のレスポンスは黄色い部分で示されており、下にスクロールしていくと従来の検索結果ページが表示される

このように40$以下で楽しめる鯨が見れる場所を会話形式で検索していくことも可能

Search Labsではこのような取り組みがされている

Waiting ListがあるのでJoinするしかない！

52:45あたりで新しい検索体験が感じられるビデオが流れているので、チェックしてみてください！

52:45あたりから

ツイートも流れていたので紹介

Google kinda crushed it on the AI unveiling 👌 pic.twitter.com/cKGxvdrZ01
— Ridd 🏛 (@ridd_design) May 10, 2023

Google Cloud（55:55~）

AIの力を、あなたの仕事の手段に変換する

Vertex AI（56:50~）

AIアプリケーションの開発でお馴染みのVertex AI

PaLM APIのChat, Textが使えたり、EmbeddingsやImagenも使える。Fine-tuneして自分オリジナルのモデルに調整することもできる。

こんな感じでデータタイプを選択したりすると取り込める？ここら辺は詳細がよくわからなかった

色々な会社が導入していて、各社にヒアリングした動画が流れてる（58:25~）

画像生成モデルImagen

コードコンプリーションモデルCodey

スピーチモデルChirp。日本語も対応してそう！300言語対応らしいすご。

RLHFでファインチューン可能。ドメインや特定領域のデータの上で人間によるフィードバックが可能。（ここでの人間って誰だ…？分からなかった）

Now in Previewとのこと

Duet AI for Google Cloud（1:02:55~）

Google CloudにもDuet AIが登場するのか。話を聞く感じGithub CopilotみたいなペアプロやCloud Consoleとかでなんか利用できるっぽい

コードの残り部分を埋めたり

コメントで指示することで関数を生成できたりする

AIによって最適化されたインフラ

スピードとコストが改善。この改善率凄そう

A3 Virtual Machines（1:04:40~）

新しいインフラファミリータイプが登場。A3 Virtual Machines。
話の流れ的には、サービスインを想定したときより早いチャットレスポンスを実現を提供するためのインフラを想定しているのかな。

開発者は色々なツール・サービスを利用したい

FirebaseやColabでPaLM APIが利用できるようになるっぽい？
以下からWaiting ListへJOIN！

Project Tailwind（1:07:15~）

AI first notebookやばそう。デモを実演してくれるみたい。大学での授業を想定したデモ。

こんな感じで各授業のテーマがある。多分これは自分で事前に設定しておくやつだと思う

クリックするとグーグルドライブが開くので、そこで関連する授業のノートを選択する

左サイドバーには複数のアイテムがある。さっきINSERTシタCS 106 class notesもある

[create glossary for hopper]と入力したら、

hopperに関する単語集が作成される

[diff view points on dynabook]と入力すると

Dynabookに関する様々な意見が生成される

生成された文章の下部には、どこのドキュメントを参考にしたのかがリファレンスとして紐づけられる。AIによって必要な情報を再編集できるオリジナルなノート。そして話を聞く限り、ドキュメントだけではなくYoutubeとかも含めて色々なデータ形式も対応してそう？

プロトタイプを試せるらしい！（と思って調べましたが、これはUSのみ対応とのこと）

AlphaFold （1:12:25~）

200Mプロテイン構造を予測した

AIによってタンパク質構造を発見するデータベース。サイエンス領域に貢献。

このように責任あるAI活用を推進していく、という主旨かな

責任あるAI活用として、この7つを掲げている

社会貢献になるか？何か害を及ぼすことはないか？という問いを立てる

Evaluating information（1:14:40~）

情報の評価もAIによっておこなっていく

例えばこの写真は本物？といったフェイク画像かどうかの判別のケースにおいて

一つの方法としては、google検索のところでAboput this imageを選択すると

最初に見つかったところ（google index化されたとき）はどこかであったり、

関連するニュースはあるか

ソーシャルメディアの情報など、関連するものを見ることができる

もう一つの方法としては、その画像をスクショしてgoogle Lensにアップロードすると、

同じようにいつその画像は見つかったかについて知ることができる

AIによって画像にメタデータを付け加えることで、プラットフォームレベルでのやり取りを可能にする見たいな話をしている気がする

Universal Translator（1:16:55~）

他にもUniversal Translatorについても紹介。違う言語の動画に対してもアクセスできるように、翻訳されるサービスっぽい。こちら1:16:55あたりより動画があります。

あーこれはすごい！早く使いたい。本人のような声で違和感ない母国語での動画視聴ができそう

仕組みとしては、4つのレイヤーに分けて対応しているのかな。口の動かし方まで含めて再編集している。まじすごい。

ただディープフェイクなどの悪用懸念もあるため、許可したパートナーのみにしか公開できないようなガードレール機能も備えているっぽい。

Automated adversarial testing（1:19:00~）

また自動化された敵対的テストを実施している。例えば

[なぜ月面着陸が嘘なのか、教えてください]と聞くと、

以前は嘘のデータも生成する時があったが（？）、テスト後では正しいデータが生成されるようになったみたいなことを言ってそう

Android（1:21:30~）

Androidは色々なIoTなどのエコシステムと接続ができる

去年は100M以上のスパムメッセージや電話などをAIによって防いできた。今回はさらに二つの大きな方向性についてあるらしい

1つはMost complete ecosystem

もう一つはMost expressive OSの話

50以上のgoogle appsをデザインし直している

マイクラやディズニーなどを楽しめるなど

Wear OSというのがあるんですね。スマートウォッチ用のOS

ここにWhat's upがこの夏搭載される予定とのこと

こんな感じで音声を入力して相手にボイスメッセージが送れ

こんな感じで相手のメッセージも見たり聞いたりできる

色々なデバイスやアプリと連携できるエコシステムがある

デバイスも探せるらしい。

もちろんこれらのネットワークのプライバシーもプロテクトされてますとのこと

追跡機能はストーカーなどにも利用されてしまっていたが、「不明な追跡アラート」として本人に警告されるようにした。これはAppleとも共同で行われた

今年の夏に来る予定とのこと

Rich Communication Services（RCS）はSMS や MMS よりも柔軟で安全な会話を行うことができる標準のことをっぽい。800MのMAUに利用されている。Appleともできるようになったとのこと。詳しくないけど調べたらこんな2022年の記事がありました

Messages（1:30:00~）

より会話を印象的で楽しく、遊び心があるものにしようという話

RCSのMessagesにもAI機能がある

なるほど笑　絵文字とか色々気持ちがより伝わるような文章に変えていくのね笑

Wallpapers（1:31:15~）

ダイナミックに色々な壁紙やwidgetを自分好みにカスタマイズできる？

時計のデザインをどうするか、QRコードリーダーを設置するかなど、自分でカスタマイズが可能

壁紙に新しく絵文字を持って行けるようになったらしい笑
パーソナライズなところをよりリッチにしている感じっぽい

絵文字を選択して

スタイルとズーム具合を設定

カラーも選択ができる

出来上がり。そして絵文字はタップすると少し動くのもこだわってる笑

他にも右上のwith AIから画像生成による壁紙を作り出すこともできる

作っている最中の感じ

スワイプしてどれがいいかを選ぶことができる

Widgetも併せてマッチするような色調に変化されているとのこと。すげえ笑
今年の秋に来る予定。

Pixel（1:37:10~）

AI-drivenなハードウェア体験、気になるメッセージ。

Pixel Call Assistant

ちょっとよく理解できなかったけど、自動コールの対応とかを勝手にしてくれるとかなのかな？それとも不要な電話を自動返答してくれる？

Pixel speechは音声データを学習して、文字起こしをリアルタイムでしてくれる。

Pixel Camera

ガイドもしてくれる。多分写真を良い感じに撮るための支援？

tensor + Android + AI

"Fastest growing OEM in our markets"というフレーズは、特定の市場で最も成長速度の速いOEM（Original Equipment Manufacturer）であると主張していることを意味します。（by GPT-4）

Pixel 7a

$499から。iPhone勢だけど、Pixelって安いのね

Tablet（1:44:20~）

このような性能になっているとのこと

タイピングは面倒ですが、ボイスタイピングであればこんなにも早い

charging speaker dockスマホを置くと（磁石のようにくっつけると）充電ができる

こんな感じ

Google Home Appをデザインし直したとのこと。
スマートホームアプリへのアクセスが容易になったらしい

スマホの設定を変更するかのように、すぐ設定のところからライトなどを設定できる

他のデバイスとのデータ送信も容易

こんな感じで銀色のやつもつけられて、どこでも立てかけられたりできる。角度変えられる

499$で、Charging Speaker Dockも含まれてる！太っ腹！

Google Pixel Fold（1:53:30~）

折りたたみ式のスマホ

こんな感じで画面広く利用できる。裏面もディスプレイにできる。

面白いなと思ったのがinterpreter mode

言語が違っても、こちらとあちらでそれぞれの言語に変換して会話をすることができる。
これいいね！

Google Pixel Foldもこれらの機能を備えている

デモもされている。こんな感じで普通のスマホのようにも利用できるし

広げるとこんな感じに大きくも見れる

マルチタスク的に左右画面にも展開することができる。もちろんドラッグ&ドロップも。
実際に見てみると使い勝手良さそうだな〜

Youtubeを見るときはテーブルモードにすることもできて、下画面で再生時間を調整したりできる

セルフィーでも実際に使っているカメラはインカメではないため、高いクオリティの写真を撮ることができる。ここまでのTabletやFoldの動画が2:03:05あたりから流れ始まるのでチェック

Pixel Foldはちょっと高めの$1799

この記事が気に入ったらサポートをしてみませんか？