GoogleのI/Oイベントをはじめ、新しいAIのニュースが目白押しです。
公開日:2023年5月13日
※動画を再生してから読むのがオススメです。
本日は、AI に関する発表が続いた週のひとつで、多くの内容をお届けします。
Googleは毎年恒例のi/oイベントを開催し、彼らが展開するクールなものすべてについて大きな発表を行いました。
ここでは、The Vergeによる超簡単なレポをお届けします: Ai、aiki AI、generative AI、generative AI、Aisa。
AIを使ってai、ai、ai、ai、AI、つまりAiを実現する。
これがイベントで話されたことをほぼ要約しています。
しかし、Googleのイベント以外にも、まだまだたくさんのAIの発表があり、Googleのイベントから私が一番面白いと思ったものを含め、それらをすべて分解して紹介します。
これは先週、金曜日に発表されたものです。
しかし、私はこのビデオを木曜日に録画しているので、先週のビデオにはなりませんでした。
しかし、先週の金曜日に、OpenAIは「Shape E」という新しいテキストから3Dモデルまでをロールアウトしました。
リンクは下の説明で確認しますが、顔のページに来て、プロンプトを入力すると、プロンプトに応じた3D画像が作成されます。
虹色の狼と入力すると、虹色の狼のようなものが出てきます。
このダウンロードボタンをクリックすると、glbファイルとしてダウンロードされ、Blenderなどで開くことができるようになります。
他にも、宇宙船、緑のブーツ、アボカドみたいな椅子などがあります。
また、Image to 3Dもあり、画像をアップロードすると、それを3D画像にしようとします。
例えば、この小さなコーギーの画像です。
自分の画像をアップロードしてみましたが、どれもアップロードした画像と同じようには見えませんでした。
だから、どうやったらうまくいくのかわからないけど、遊んでみるのもいいかも。
今ならHugging Faceで無料配布しています。
今まで見た中で最も素晴らしい3Dアセットではありませんが、今まで見た中で最も見栄えのするテキストから3Dへの変換です。
さて、今週は、ウォーレン・バフェット氏がAIを原子爆弾の製造に例えたり、ジェフリー・ヒントン氏がAIの脅威は気候変動よりも人類にとって切実であると言ったところから始まりましたね。
しかし、このビデオでは、悲観的な話ばかりをしたいわけではありません。
AIで起こった本当にクールで楽しい進歩についてお話したいと思いますので、さっそく進めていきましょう。
また、月曜日には、Loveless Studioから、メタバースへのテキストを作成するツールを紹介するデモがありました。
基本的に、これは彼らが作った雪の降る異世界であることがわかります。
プロシージャルな地形生成、ダイナミックな景観、ダイナミックな地質、ダイナミックな照明、ダイナミックなポストプロセスなど、あらゆる種類のクールな機能を備えており、プロンプトを使ってビデオゲームを作ることができるように一歩近づいたと言えます。
そして、これらはすべてUnreal Engineの中で動作します。
実際にいつアクセスできるようになるかはわかりません。
これは、今後の展開を示すティーザー映像のようなものですが、ゲーム制作の民主化をさらに進める、本当に楽しいツールになりそうです。
また、月曜日には、Loveless Studioのデモが公開されました。
メタバースへのテキストを作成するためのツールを披露してくれました。
基本的に、これは彼らが作った雪の降る異世界であることがわかります。
アトランティスの失われた大都会」、これは彼らが作ったものです。
プロシージャル地形生成、ダイナミックランドスケープ、ダイナミックジオロジー、ダイナミックライティング、ダイナミックポストプロセッシングを備えています。
プロシージャルな地形生成、ダイナミックな地形、ダイナミックなライティング、ダイナミックなポストプロセスなど、プロンプトを使ってビデオゲームを作れるようになる一歩手前の、あらゆる種類のクールな機能が備わっています。
これらはすべて、Unreal Engine の内部で動作します。
実際にいつアクセスできるようになるかはわかりません。
これは、今後の展開を示すティーザー映像のようなものですが、ゲーム制作の民主化をさらに進める、本当に楽しいツールになりそうです。
また、月曜日には、Metaが画像結合の研究をオープンソース化したことが発表されました。
これは、画像から音声、音声から画像、テキストから画像、そして音声があります。
オーディオとイメージ、オーディオと生成されたイメージ...。
というように、例えば画像を選択すると、その中から音声を作ろうとします。
そこで、この犬をクリックすると、この犬から2つの音声が生成されたのがわかると思います。
これはAIが生成した犬からの音声です。
この虎をクリックすると、このような音声が出ます。
音声から画像への変換は、その逆なのです。
つまり、鳥の鳴き声を聞かせれば、その音声からこのような画像を生成しますし、電車が走れば、その音声から画像を生成します。
その音声をもとに、このような画像を得ることができるのです。
テキスト画像と音声、テキストのドラムを与えると、この画像とこの音声、あるいはこの画像とこの音声が得られます。
そして、音声と画像を新しい画像にするのです。
つまり、ビーチの写真と犬の吠え声です。
つまり、ここに犬の吠える声がある。
この2つを組み合わせると、ビーチにいる犬の絵ができあがります。
注ぐ音とリンゴの絵を組み合わせると、シンクの下にあるリンゴの絵が生成されました。
そして最後に、音声から生成された画像です。このエンジン音は、ボートか何かの画像を生成しました。
犬の吠え声、この犬の絵が出来上がる。
これがイメージバインディングです。この詳細については、MetaのブログのこのURLで読むことができます。
また、先ほど述べたように、これはオープンソースなので、Facebook ResearchのGitHubページでこのコードを見つけることができ、自分のプロジェクトでこのコードを使用することができます。
今週、TEDはImran ChaudhryのTED Talkをアップロードしました。彼はウェアラブルAI拡張現実技術を披露しましたが、かなりクールです。
そして、私たちも同感です。
すみません、これは私の妻です。
もしもし?
やあ ベサニー 調子はどうだい?
ええ、私は今、赤い丸の上にいます。
実は、あなたに見せたいものがあるんだ。
目に見えないデバイスは、その存在を忘れさせるほど自然に使えるものでなければならない。
これは私と、AIの音声モデルを使って流暢なフランス語を話す私の声です。
これは私自身のAIの一部です。
これは、深い偽物ではありません。
実際、深い深みがあります。
これは私のAIが、どんな言語でも話せる能力を与えてくれているのです。
一日中ミーティングをしていて、聞き逃した内容を要約してほしいとき、こう想像してみてください。
キャッチアップしてください。
明日のデザインミーティングに来ること、ベサニーが来週のディナーを移動したいこと、オリバーが今週末のサッカーについて尋ねていること。
これらは、メール、カレンダーの招待状、メッセージのすべてが上部に浮上したものです。
読みやすくするために、句読点をつけています。
テキストの長さの関係で、文の構成がまだ少し複雑に感じられるかもしれませんが、ご了承ください。
このチョコレートを1つ手に取った。
子供の頃、これを大量に食べたものだ。
これ、食べてもいいですか?
だから、もうこれは食べられないんだ。
とにかく食べてみるよ。
これは本当に、本当に素晴らしいTed Talkです。
長い間、私のお気に入りのTEDトークの1つです。
14分弱なので、ぜひ皆さんご覧になってください。
リンクは説明文に記載しますが、AIとウェアラブル技術は本当に、本当に面白くなりそうだということです。
このTed Talkは、実際に動作する技術で、物事がどこに向かっているのかを示しています。
今週、IBMはWatson X AIでAI分野にさらに深く踏み込むことを発表しました。
実際にHugging Faceと提携し、Hugging Faceで公開されているオープンソースモデルを試すことができます。
これは、Googleが持っているようなGPT4やPaLM 2の独自バージョンのようで、Watson Xは7月に発売される予定だそうです。
7月にはWatson Xも利用できるようになる予定です。
このようなWatson Xの興味深い点は、ゲームとしては少し遅れているように感じられることです。
すでにみんながOpenAIの上にアプリを作り始めていたり、Googleの新しいPaLM 2の上にアプリを作り始めているのであれば、7月頃には、ほとんどの人がWatson Xの上にアプリを作り始めているように感じます。
7月までに、ほとんどの企業が、その上に構築するプラットフォームをすでに選んでいるような気がします。
それがどのように展開され、IBMが実際にユニークなものをテーブルにもたらすことができるのか、興味深いところです。
また今週、Wendy'sがドライブスルーの注文を受けるAIチャットボットをテストすることが発表されましたが、これはGoogleのPaLM 2テクノロジーに基づいて構築されているようです。
マクドナルドがテストしたときは、あまりうまくいかなかった。Can I please have vanilla ice cream?
何か他のものを用意しましょうか?
いや、キャラメル、いかがでしょう...。
いいえ、クリームパケットを...。
いや、そうじゃなくて。
大きな水とアイスクリームが欲しいだけなんです。
今、それを取り戻します。
ああ、神様、文字通り待ちきれません。
バターはどこから出てきたんだ?
私はちょうど大きな水とアイスクリームのカップのようだった。
これはまだ取ってあるんだ。
マクドナルドに言いに行くしかない。
日曜日はもういいや。
なし、プレーン、ゼロ、ザタ、何もない。
日曜日はバニラアイスだけでいい。
なんてことだ、もういいんだ。
もうダメだ。
もうおしまいだ。
イエス』。そう、ウェンディが自動注文ボットに挑戦することで、マクドナルドよりも少しはマシになることを願っています。
Airtableはまた、自社のプラットフォームにAI機能を追加すると発表しましたが、これはある意味必然的なことでした。
いずれにせよ、誰もがこうなることを予想していたのは間違いない。
Notions AIのようなものから得られるかもしれないのと同じ種類のことをするように見えます。
Airtable AIはオプションの有料機能で、価格や利用方法についての詳細は近日中に発表される予定です。
また今週、Hugging FaceはTransformer agentを発表しました。
トランスフォーマーやディフューザーと会話することで、10万以上のハギング・フェイスのモデルをコントロールすることができます。
テキスト、画像、ビデオ、オーディオ、ドキュメントなどを使用できる、完全なマルチモーダルになる予定です。
Twitterのスレッドでは、Open Assistant、Star coder、OpenAIのような大規模な言語モデルを使用してエージェントを作成し、Transformersやdiffusersと会話を始めることができるとしています。
複雑な問い合わせに対応し、チャットモードを提供し、あなたの言葉を使って画像を作成し、エージェントにウェブサイトの要約を読み上げさせ、PDFを読み上げさせ、スピーチからテキスト、テキストからスピーチ、テキストの分類、要約、翻訳、画像生成、変換、キャプション、セグメント化、アップスケール、テキストからビデオなどのツールが組み込まれています。
ここが、私が本当に面白いと思ったところです。
つまり、ツールを設計し、それをハブにプッシュすることは、数行のコードで行うことができるのです。
エージェントのツールキットは、ベースとなるものです。
自分のツールや、コミュニティが提供する他のツールで拡張することができます。
つまり、Hugging Faceの中で利用可能なすべてのツールセットを使って、まったく新しいツールを作ることができる、ということです。
そして、その新しいツールを作ったら、そのツールをHugging Faceのツールセットに追加することができます。
これで、そのツールは他の人が使って反復することができるようになり、開発者が使って構築することができるツールセットの新しいツールになるのです。
つまり、Transformerエージェントがツールを作るために使われれば使われるほど、新しいツールを作るために利用できるツールが増えるのです。
つまり、この内部で新しいツールが作られるたびに、どんどん改善され、より良いツールを作り続けることができるようになるのです。
ここ数週間、私たちはAIが生成した音楽について多くの話をしましたが、その音楽の多くがSpotifyにアップされるようになりました。
しかし、どうやらSpotifyは、そのような音楽をすべてプラットフォームから削除したようです。
Spotifyは、「人工的なストリーミングは業界全体の長年の問題であり、Spotifyは当社のサービス全体でこれを根絶するために取り組んでいます」と述べています。
つまり、SpotifyはAIが生成したプレイリストを許可するようになったものの、SpotifyはAIが生成した音楽に対して非常に反感を持っているようです。
私たちは、ストリーム操作の潜在的なケースを特定したり、警告を受けたりした場合、ストリーミング番号の削除やロイヤリティの差し止めを含む措置をとることで、その影響を緩和しています。
これにより、誠実で勤勉なアーティストに支払われるロイヤリティを守ることができます。
AI音楽は、多くの人が思っているほど簡単に作れるものではないので、実際にAI音楽を作ったことがある人は、この話を聞いて少し気分を害されるかもしれませんね。
本当に良いものを作るには、ある程度の才能と技術、そしてかなりの時間が必要だからです。
しかし、Spotifyは、少なくとも今のところ、AIが生成した音楽を作ることに対して一線を引いているようです。
少なくとも、既存のアーティストの声については。
私にとっては非常にグレーな領域なので、これがどうなるかは興味深いところです。
例えば、私がカニエにそっくりな声を持っていて、カニエに聞こえるように歌ったとしても、私はカニエではないけれど、実際に歌ったのだとしたらどうでしょう?
それは、私の歌が彼の声に似すぎているという理由で、Spotifyからブーイングされるということでしょうか?
カニエのように聞こえるが、実際にはカニエによって生み出された声ではないという理由で、それがカニエの声になるのだろうか?
どうでしょう。
彼の声のデータでトレーニングされたのは間違いないので、そういう要素はあります。
しかし、将来的には、他人のデータから生成されたものと、他人の声に似ているだけのものを区別することはできなくなると思います。
本当に厄介なことになりそうです。
私自身はAI音楽をたくさん作っているわけではないので、この戦いにはあまり関心がありません。
ただ、この件がどうなるかは興味深いですね。
AIが生み出す音楽といえば、今年のGoogle I/Oでは、Googleの大きな発表がありましたが、これはGoogleのイベントで発表されなかったので、注目されませんでした。
しかし、Googleは、AIが音楽を生成するMusic LLMモデルを公開しました。
AIテストキッチンに行くと、実際にこれで遊んで音楽を生成することができます。
例として、プールサイドのパーティーで流れるような、夏の軽やかな雰囲気の曲が紹介されているのがわかると思います。
これは完全にAIが作ったものですが、どのような音がするのかがわかりました。
2000年代前半のポップパンクアンセムで、この曲は実際にここでダウンロードできます。
しかし、この音楽を実際に商業的に使用できるかどうか、今のところ非常に不明です。
私の予想では、おそらくまだできないのではないかと思うのですが、よくわかりません。
利用規約にも、この音楽をどう使うか、商業的に使えるかどうかについては、特にどこにも書いていないんです。
さて、それでは今週起こったことの本題に入りますが、それはGoogleのI/Oイベントで、彼らが行っているすべてのAIに関する発表が次々と行われました。
さて、私はGoogle I/Oイベント全体のTL;DRバージョンのようなものを作りました。
イベント全体は4時間近くあったのですが、私が面白いと思ったものを15分程度に凝縮しました。
それは私のTwitterで見ることができます。
私が作成した15分の要約を見たい方は、下の説明でこの正確なTwitterの投稿にリンクしておきます。
では、そのハイライトをいくつかご紹介しましょう。
まず、電子メールでの活用例を紹介しました。
フライトがキャンセルされたというメールを受け取った人が、キャンセルされたフライトの全額払い戻しを求めるプロンプトを出したとします。
AIは短いメールを書きました。
AIは短いメールを書き、AIに詳しく説明するように指示すると、AIはより詳細なメールを書いて、フライトの払い戻しを求めました。
このように、電子メールの中に直接組み込まれるのはとてもクールだと思いますが、特に新しいことではありませんよね?
これまでもChatGPTでこのようなことができました。
Chromeの拡張機能でこれを実現しているものは、今までに100個はあるでしょう。
超新奇なことでも、エキサイティングなことでもないんです。
ただ、サードパーティーのツールを使う手間を省き、代わりにGmailに直接組み込んでもらうだけです。
また、Googleフォトにマジックエディターと呼ばれるものが搭載されることも発表されました。
これまでのマジックイレイサーをマジックエディターに改名しました。
画像内の不要なものを消したり、明るさを調整したり、より晴れた日に見えるようにしたり、さらには画像内のものを動かして、最初に作ろうと思っていたものに近づけることもできます。
Googleフォトに直接組み込まれるのはクールだと思いますが、これは超斬新な技術ではありません。
これは、Clip dropやRunway mlのようなツールから既に得られているタイプのものです。
また、PaLM 2も発表されました。これは、Bardのようなツールがその上に構築されている、次世代大規模言語モデルのようなものです。
これは、Bardのようなツールの上に構築される、次世代の大規模言語モデルです。コーディングがよりうまくなり、韓国語でコメントを追加するようなこともできます。
また、「Med PaLM 2」では、PaLM 2を微調整し、医療知識で微調整することを話していました。このモデルは、臨床知識に関してエキスパート性能に達した最初の大規模言語モデルであるという事実が非常に印象的でした。
Bardの裏側で動作しているので、Bardにアクセスすれば、PaLM 2の能力を見ることができるような気がします。
また、この後発売されるGeminiという次世代モデルについても語られました。
これは、さらに多くのことを訓練しています。
つまり、これは彼らのGPT 5のようなものだと思うんだ。
どう比較したらいいのかわかりませんが、これは次のさらに大きな大規模言語モデルで、現在生産中です。
まだトレーニング中です。
Bardはコーディングが得意で、スクリーンに映し出されるプログラミング言語をすべて学習するようになったと話していました。
ChatGPT プラグインで ChatGPT が行っていることに精通している場合、Barred ツールは非常に興味深いものです。これは、Bard で行っていることだそうです。
Bardは、TripAdvisor、Wolfram、Redfin、Instacart、Spotify、YouTube、Khan Academyといったツールと直接接続することができ、これまで見てきた多くのツールがChatGPTでプラグインを取得していることがわかります。
これはとてもクールで、素晴らしい機能だと思いますが、ChatGPTがやっているのを見て、自分たちもやっているような感じもします。
GoogleはChatGPTの前にこのアイデアを持っていたかもしれません。
でも、このタイミングは、ChatGPTからアイデアを得て、Bard 2に追加することで対抗しているように感じられますね。
他にも大きな発表として、Bardの内部でAdobe Fireflyと提携することになりました。
Bingのチャットで、次世代バージョンのDollyを使って画像を生成したことがあると思いますが、BardもAdobe Fireflyを使って同じようなことをやっているようです。
例えば、Bardの中に入って、「バースデーケーキの前にいるユニコーンの画像を生成してくれ」と言うことができます。
すると、Adobe Fireflyを使って、その画像を生成してくれるのです。
マイクロソフトとOpenAIが現在のBingチャットで行っていることに、一歩遅れをとっているような気がします。
また、Bardが180カ国の人々に開放されたことも発表されました。
英語、日本語、韓国語に対応しています。
今、画面に表示されているのは、利用可能なすべての国です。
スクリーンショットを撮ったり、ビデオを一時停止したりして、どこでアクセスできるかを確認できるように、ゆっくりスクロールしていきますね。
また、説明文の中にこのページへのリンクを貼っておきますので、ご自身で確認してみてください。
さて、このリストには、いくつか目立った抜けがあります。
ひとつは、カナダがまだここにアクセスしていないことで、これは私にとって非常に意外なことでした。
また、スウェーデンやスイスなどでも、多くの人がアクセスできないことに気づきましたが、これもちょっと驚きです。
特にこれらの国を選んだ理由は、これらの国に友人がいて、実際に連絡を取って「まだアクセスできない」と言ったからです。
すべての国で展開されていると思っていたのに。
カナダ、スイス、スウェーデンは、そのうちの3カ国ではありませんが、180カ国に登録されました。
また、Google Duet AIも発表されましたが、これはGoogle WorkspaceのすべてのツールにAIを搭載するというものです。
つまり、Googleドキュメント、Googleシート、Googleスライドに直接AIを導入することができるのです。
そして、これらはすべて互いに連携しているのです。
つまり、Googleシートからスライドに情報が必要な場合は、シート内の情報を参照し、Googleスライドにアクセスすることができます。
また、あるドキュメントのシートにある情報にアクセスする必要がある場合、これらはすべて互いにクロストークすることになります。
これがGoogle Duetと呼ばれるものです。
私が面白いと思った使用例のひとつを紹介します。
犬の散歩ビジネスの顧客とペットの名簿のようなものを料金とともに作成し、作成をクリックします。
彼女はこの入力を、私たちがあらゆる種類のシート固有のユースケースでトレーニングしてきた、微調整されたモデルに送ります。
このモデルは、あなたが必要とするかもしれないものを考え出したのです。
ジェネレーターテーブルには、犬の名前、クライアント情報、メモなどが入っています。
これは、あなたがいじるための良いスタートです。
また、スライドでの使用例として、スライド全体のプレゼンテーションを生成し、スライド用のメモを作成するのを忘れ、スライドの内容からAIにすべての講演者のメモを自動生成させた例も紹介されました。
また、Googleの新しい会話型検索がどのようなものになるのかも披露されました。
Bingが検索エンジンで計画しているものと非常によく似ています。
3歳以下の子供と犬を連れた家族にとって、ブライスキャニオンとアーチーズ国立公園のどちらが良いですか?"という質問をしているのがわかります。
という質問に対して、AIで回答を生成し、その後に続く質問候補や情報源を提示し、その下に検索結果を表示するというものです。
また、Googleでのショッピングのための機能も披露され、Google上でAIを使って様々な商品を比較することができるようになる。
例えば、坂道のある5マイルの通勤に適した赤色のE-BIKEを表示すると、坂道での作業に適した赤色の自転車が置いてある店舗を、現在地から近い場所で見つけることができたという。
これは、NVIDIAのFoundationプラットフォームやAmazonのBedrockプラットフォームに非常によく似ていて、企業がGPUリソースの上に独自の大規模言語モデルを構築することができるように感じます。
彼らが披露したすべてのものの中で、最も私の興味を引いたのは、Tailwind プロジェクトです。これは、Google ドライブ内のファイルに基づいて独自の内部チャットボットを作成することです。
Googleドライブの中に大量のドキュメントがあれば、チャットでそのドキュメントに問い合わせることができ、そのドキュメントをソースとして質問に答え、ドキュメントのデータベースからソースを引用してくれます。
Googleドライブのコンテンツを埋め込んでチャットボットを作成し、Googleドライブのコンテンツをすべてチャットにできるようにするのです。
Googleドライブに自分の興味のある特定のトピックのフォルダを作り、ウェブ上で見つけた様々なドキュメントを追加し、そこに自分のコンテンツを書き、インタビューやビデオの記録を保存し、想像できるものすべてを保存し、そこに保存したすべてのドキュメントを照会するために、自分自身のカスタムメイドのチャットボットを作成することができるからです。
このコンセプトは、私にとって本当にエキサイティングなものです。
このProject Tailwindは、今回の基調講演で披露されたすべてのものの中で、おそらく私が最も手に入れるのを楽しみにしているものです。
また、ユニバーサル・トランスレーターも披露されました。これは、誰かが話しているビデオを撮影し、そのビデオを別の言語に翻訳すると、その人の口や声が実際にその言語で話しているように追従するというものです。
つまり、これがその例です: 多くの大学生が気づいていないことですが、助けを求めるタイミングを知り、役立つリソースを利用してフォローすることが、実は生産的な大人になるための特徴なのです。
これはとても素晴らしいことです。
しかし、この基調講演では、ディープフェイクなどに使われることを恐れて、誰でも利用できるようにするつもりはないとも言っていました。
というのも、ディープフェイクなどに使われるのを恐れているからだそうです。では、一般の人がいつGoogleからアクセスできるようになるかというと、それは誰にもわかりません。
このイベントでは、いくつかの新しい携帯電話も発表されました。
新しいPixelの折りたたみ式携帯電話とPixel 7Aだそうです。
私はそれにはあまり興味がありませんでした。
それよりもAI機能の方に興味がありました。
もしあなたが、サウスパークのエピソードでChatGPTについて話しているのを見たことがあるなら、これはそのエピソードからそのまま出てきたような気がします。
また、ジェネレーティブAIを使ってAIの背景を生成することもできるようになるそうです。
そして、開発者向けの基調講演に移りました。
今回のI/Oイベントでは、2つの基調講演がありました。
Googleのメイン基調講演と、開発者向け基調講演です。ここでは、APIやプログラマー向けに提供されるさまざまな開発ソフトウェアに焦点が当てられました。
開発者がアクセスできるようになるAPIや、コードウィスパラーやGitHub Copilotのようなコードヘルパーが多数用意されていることが紹介されたよ。
Googleは、その独自バージョンを提供する予定です。
また、独自のAndroid AI開発プラットフォームや、ビルダー向けのクールなツールの数々も発表されましたが、この部分で語られたことのほとんどは、私の頭には入ってきませんでした。
AndroidのようなGoogleのプラットフォームでコーディングする場合、コーディングをより速く、より簡単にするためのツールであるという事実以外は、コーダー用語や業界用語をたくさん使っていて、私にはうまく訳せませんでした。
そして最後に、彼らは本当に楽しいものでイベントを締めくくりました。それは、Google Earth と拡張現実技術を使用して、スペースインベーダーを直接現実世界に追加する拡張現実ゲーム、Space Invaders World Defense を披露したものです。
これはGoogleマップのストリートビューですが、その上にスペースインベーダーを配置したもので、「スペースインベーダー・ワールドディフェンス」というゲームです。
そして、これがGoogleのイベント全体を締めくくることになったのです。
このゲームは、私が本当にクールで楽しいと感じたものです。
また、このAR(拡張現実)技術は、開発者が開発できるものであることも説明されました。
Googleマップのツールと拡張現実のツールを使って、自分でこのようなゲームを作ることができるわけです。
AIコア地理空間APIと呼ばれるもので、開発者はこのAPIにアクセスし、拡張現実のスペースインベーダーゲームと同じようなものを作ることができるようになります。
以上、Google I/Oで語られたことをほぼすべてまとめてみました。またTwitterで15分程度にまとめたものがあるので、そちらを下にリンクしておきます。
4時間をたった15分にまとめた超編集版で、彼らが話した様々なAIについて知りたい方は、ぜひご覧になってください。
さて、今週はこの辺で。
Stability AIは、stable animation SDKを発表しました。これは、開発者がStability AIのアニメーション・プログラムを使ってアニメーション・ツールを構築できるようになったことを意味します。
これは、以前のビデオでお話したD4M plus ControlNetと非常によく似ています。
しかし、Stability AIのバージョンはオープンソースではありません。
私が知る限りでは、彼らは実際にあなたのソフトウェアでこのAPIを使用するために課金しています。
しかし、D4M技術の新しいバージョンのようなものだと思われます。
続いて、Anthropicは、AIの10万コンテキストウィンドウを発表しました。
ChatGPT、GPT-3、GPT-4のようなものを使っていて、そこに大きなテキストの塊を入れたとき、例えばオンラインドキュメントを読もうとしているときに、「トークンが足りません」と表示されると、この全体を読むには十分なトークンがありませんよね。
GPT-4では、一度に8,000トークンしか使えないからです。
GPT-4の上限を上げれば32,000の制限がありますが、ほとんどの人はそれにアクセスできません。
私もそうです。
Anthropicでは100,000トークンの制限があり、およそ75,000ワードになります。
つまり、入力されたテキストと出力されたテキストを合わせると、75,000語程度になります。
Anthropicのデモビデオでは、実際に240ページのドキュメントをアップロードし、その巨大なドキュメントに質問をして情報を返しています。
GPT-4の8,000トークンの制限では、6,000ワード程度では到底無理でしょう。
Anthropicを使えば、もっと多くの単語を使うことができますが、まだ誰でも使えるわけではありません。
Anthropicを使うことで、より多くの単語を使うことができますが、まだ誰でも使えるわけではありません。
また、私見ですが、GPT-4などの出力と比べると、今ひとつです。
GPT-4とClaudeの違いを本当に確かめたいなら、nat.dev/compareにアクセスしてプロンプトを入力し、AnthropicのClaudeとOpenAIのGPT-4の出力を実際に見て違いを比較することができます。
Claudeの方がはるかに高速ですが、GPT-4の方がより詳細であるように見えます。
以上です。
以上が、今週起こったニュースのまとめです。
このビデオは木曜日に録画しているので、金曜日にはこのビデオで紹介しきれなかったニュースがあるかもしれません。
でも、もしあれば来週のビデオでカバーしようと思っています。
このようなニュースやクールな技術、クールなツールについてオタクになるのが好きなら、futuretools.ioをチェックしてみてください。
ここでは、私が出会った最もクールなツールをすべてキュレーションしています。
毎日、新しいツールを追加しています。
また、最新のAIに関するニュースもお届けしています。
おそらく、インターネット上で最も最新のAIニュースに関する情報源でしょう。
私は少し偏見を持っていますが、間違いなくそうです。
もし、このような情報が多すぎて、AIの分野で起こっていることを週1回、TLDRで知りたいだけなら、無料のニュースレターに参加してください。
私が出会った最もクールな5つのツール、その週に発表された最も重要なニュースのほんの一握り、いくつかのYouTube動画、そしてAIでお金を稼ぐためのクールな1つの方法に切り分けます。
これは、AIの世界のTLDRです。
毎週金曜日に配信されます。
一週間を通して他のメールは送りません。Futuretools.ioの「Join the free newsletter」ボタンをクリックすると、ご覧いただけます。
このように、AIのニュースは本当にペースが上がっているようです。このチャンネルにチャンネルを合わせていただき、常に情報をキャッチしていただけると本当にありがたいです。
この動画が気に入ったら、そしてこのような動画をもっと見たいなら、必ず親指を立ててください。
毎週金曜日にはこのニュースビデオのようなビデオを作り、それ以外の週にはクールなチャレンジやチュートリアル、研究の様々な分解やその他のクールなAI情報を作っています。
まだ登録されていない方は、ぜひ登録しておいてください。
ご視聴ありがとうございました。
本当にありがとうございました。
では、次のビデオでお会いしましょう。
それでは。
ありがとうございました。