GoogleAIのイベントGoogleI/O視聴後感
筆者はGoogleIOのライブを途中からしか見て居なかったのですが、技術力てんこ盛りでおなか一杯になるほどこれでもかと新技術が詰め込まれていましたのでイベントのポストを紹介していきます。
その前に一言、今に始まった事ではありませんがGoogleに、センスはないんですよ。非常にダザいんです。致命的な位にダサい。
何でしょうかね。この統一感のない色使いのステージに響き渡るロック!この登場に続いて、グッズを発射して配りました。
ただし、やはりGoogleはすごいのです。
GoogleAIにもやはりライブ認識がある
これは、ライブビジュアルクエリと言われる技術でリアルタイムストリーミングとニューラルコーデックの組み合わせにより、スマホのカメラを使って物を映しながらそれが何かをAIに尋ねることが可能になります。具体的には、以下のようなプロセスです:
発信側: スマホのカメラで映像をキャプチャし、リアルタイムで圧縮してストリーミングします。
受け取り側: ストリーミングされたデータをニューラルコーデックでデコードし、AIが映像を解析して応答を生成します。
この技術により、ユーザーはリアルタイムでインタラクティブな体験を享受でき、さまざまな用途に応用することができます。
この技術は、OpenAIのスプリングアップデートでGTP-4oの音声アシスタントも示してくれました。違いは何かと言うとAI自体の音声ですね。こちらはより、音声アシスタントらしい機械っぽさがあります。OpenAIは映画「her」を理想としているので声さえも、herのAIアシスタントであるサマンサに非常に似ている肉声さながらな音声を使用しています。
昨日、OpenAIの人間さながらなAIとの会話を聞いちゃったらこんな感想もでますね。
Project AstraでOpenAIのGTP-4o操作の実況を見る
これは面白い試みでしたね。友人同士なのでしょう。二人は同じ中華系でもありAI界では非常に入れ替わりが激しく、Google deepmindから来た人がOpenAIに移動、あるいはその逆、あるいはteslaに行くteslaから来ると言う事が頻繁にあります。
これは面白い試みでしたね。友人同士なのでしょう。二人は同じ中華系でもありAI界では非常に入れ替わりが激しく、Google deepmindから来た人がOpenAIに移動、あるいはその逆、あるいはteslaに行くteslaから来ると言う事が頻繁にあります。
今日発表の3つの技術
本日のGoogleIOの発表を動画付きでまとめいるポストがありました。
Project Astra: AI アシスタントのビジョン
Imagen 3 & Veo: 新しい画像およびビデオ生成モデル
Gemini 1.5 Flash: ロングコンテキストと 2M トークンを備えた軽量マルチモーダル モデル 1.5 Pro
GoogleIOを阻止する右翼たち
イーロン・マスクがX上でGoogle GAMINIを「woke レイシストAI」といって徹底的にGEMINIをやっつけ、画像生成機能を停止させた事件が思い出されます。
イーロン・マスクの徹底的な批判についは下記のNoteに解説していますので合わせてご覧ください。
ちなみに、サム・アルトマンもこのステージのダサさに感想を述べていますので、ここに共有しておきますね。
そして残念ながらこういう結果になっています。
OpenAIの「GPT-4o」紹介動画は、約26分の放送時間で3,516,592回再生されているのに対し、Google I/O '24の基調講演は約1時間52分の放送時間で1,000,000回再生されています。この比較から、OpenAIの動画が短時間で多くの視聴者を引き付けたことがわかります。
この記事が気に入ったらサポートをしてみませんか?