この動画では、Googleが開発中の新しいAIアシスタント「Gemini」と、MITとハーバード大学の研究者によって開発された追跡システム「FAn」について紹介されています。Geminiは、テキスト、画像、音声などの異なるデータタイプを同時に処理できる大規模な言語モデルで、現在のGoogleツールや製品の改善、多様で革新的な結果の生成、そしてビジネスや開発者のプロジェクトに活用されることを目指しています。一方、FAnは、カメラとクエリだけでリアルタイムにオブジェクトを追跡し、セグメンテーションすることができるシステムで、既存のメソッドに比べて正確で堅牢です。両方のシステムの開発は進行中で、Geminiの詳細は秋に公開され、FAnのコードとモデルはオンラインで公開されています。
公開日:2023年8月25日
※動画を再生してから読むのがオススメです。
周知のように、グーグルは最近、新しいAIアシスタントを発表したが、これはジェミニと名付けられた次期プロジェクトの試験運用だと多くの人が考えている。
ユーザーの反応を見るために、様々なAI機能を試しているのだ。
ジェミニは、アルファ碁からグーグルのAI検索まですべてを統合すると予想されている。
ジェミニは、これまで作られた中で最も強力なAIシステムとなることを目指しており、インターネットと私たちの日常生活を一変させる可能性を秘めている。
このビデオでは、ジェミニ・プロジェクトについて説明する。
その後、MITとハーバード大学の新しいAIプロジェクト「FAn」についても取り上げます。
これも画期的な開発なので、ビデオを最後まで見て、そのすべてを知る価値がある。
つまり当初、Geminiは、2016年に囲碁の世界チャンピオンを破ったAI、AlphaGoの開発グループであるGoogle DeepMindによるGeminiプロジェクトの成果物だったのだ。
ジェミニ・プロジェクトの目的は、特定のモデルなしに、あらゆる種類のデータであらゆるタスクに取り組むことができる普遍的なAIを構築することだ。
ジェミニはこのプロジェクトの初期段階である。
テキスト、画像、動画などを処理する大きな言語モデルだ。
テキストを動画にしたり、音声を画像にしたりと、コンテンツを作成することもできる。
潜在的な用途は膨大だ。
Geminiは、強化学習、フィードバックによるAIの訓練、可能性のある行動の結果を探索するツリー探索など、AlphaGoの技術を使用している。
これらを言語モデルと組み合わせることで、ジェミニは様々な分野の課題に対処することができる。
ジェミニの特徴は、異なるデータタイプを同時に扱うことに重点を置いたアーキテクチャにある。
例えば、シーンを説明するテキストを提供すると、Geminiは対応する画像、ビデオ、サウンドを作成することができる。
逆に、画像、ビデオ、サウンドから、説明的なテキストを生成することもできる。
ジェミニは、テキスト、画像、音声のような複数の種類のコンテンツを一度に扱うことができるため、他のAIシステムよりも優れている。
対照的に、OpenAIのChatGPTはテキストを作成するのは得意だが、画像や動画、音声を扱うのは苦手だ。
それらにOpenAIを使いたければ、画像ならDALL-E、曲ならJukeboxのような別のモデルを使う必要がある。
Geminiでは、それがすべて統合されている。
では、なぜグーグルはGeminiに取り組んでいるのか?
理由はいくつかある。
第一に、グーグルはGeminiによって現在のツールや製品を改善できる可能性を見出している。
例えば、彼らのチャットボットBarredや検索エンジンは恩恵を受ける可能性がある。
Geminiに何でも尋ねて、好きな形式で答えを得ることを考えてみてほしい。
効率的で、グーグルの膨大なリソースを使って素早く問題を解決できる。
第二に、グーグルはライバルの多くよりも多くのデータを持っている。
このデータは、YouTube、Google Books、主要検索インデックス、Google Scholarの学術コンテンツなどから得られる。
これらすべての情報を利用することで、グーグルはより優れたモデルを訓練し、多様で革新的な結果を生み出すことができる。
しかし、我々は行く必要がある。
そして第三に、グーグルはジェミニをクラウドプラットフォームのユーザーに提供する予定だ。
これは、企業や開発者がジェミニの能力をプロジェクトに利用できることを意味する。
ユニークな学習リソースを開発したり、支援技術を開発したり、アンビエント・コンピューティングを使って新しいコンテンツを生成したりするかもしれない。
では、ジェミニが実際に使われるのはいつになるのだろうか?
グーグルはまだ正式なリリース日を発表していないが、今年の秋にはプロジェクトの詳細を明らかにすると述べている。
このエキサイティングな開発に関する最新情報をお楽しみに。
とりあえず、Geminiについてどう思うか、以下のコメントで教えてください。
ChatGPTや他のAIシステムを超えられると思いますか?
Geminiがどのようなコンテンツを生成するのを見たいですか?
ジェミニにアクセスできたら、どのように使いますか?
こんなに早くエスカレートするなんて、今でもクレイジーだよ。
つまり、ほとんどの人がChatGPTを使い始める前から、AIはアメリカ経済を押し上げる大きな役割を果たしていたのだ。
これは私たちの多くにとって素晴らしいニュースだが、AIを利用している大手テック企業とは別に、他の多くの企業が財務的にうまくいっていないことが心配だ。
昨年、一部の一流投資家はリスクを分散するために、株式の代わりに美術品などの資産を買い始めた。
本日のスポンサーであるマスターワークスは、かつて地球上で最も裕福な人々だけが行っていたこの分散投資戦略を提案する。
数十年分のオークション・データをまとめ、価値が上がると思われる美術品に投資するのだ。
彼らは前もってそれを購入し、SECで資格を与え、投資可能な株式に分割する。
最終的な売却から得られる純収益は、投資家に分配されます。
私はファイナンシャル・アドバイザーではないし、過去のリターンが将来のリターンを保証するものでもない。
わずか数年で、彼らは4500万ドル以上の美術品を売り上げ、数週間前にはセシリー・ブラウンの絵画を驚異的な77%の年間正味収益率で売却し、15回連続で利益を上げました。
Masterworksは80万人以上のユーザーを持ち、彼らの提供するアートは数時間で完売している。
しかし、私の視聴者は、説明文にあるリンクをクリックすることで、行列をスキップして今すぐ優先アクセスを得ることができる。
さて、ここでFAn(Follow Anythingの略)について説明しよう。
これはMITとハーバードの研究者が開発した新しいシステムで、カメラと簡単なクエリ(テキスト、画像、クリックなど)だけで、ロボットがリアルタイムであらゆる物体を追跡できる。
このビデオでは、FAnがどのようなもので、なぜ印象的なのかを説明する。
FAnはビジュアルオブジェクトトラッキングにTransformerアーキテクチャを使用しています。
Transformerは一般的に自然言語処理(NLP)を進歩させることで知られ、テキストを生成したり言語を翻訳したりすることができる。
研究者たちは、トランスフォーマーが画像にも有効かどうか知りたかったのだ。
物体を追跡できる既存のロボットシステムのほとんどは、畳み込みニューラルネットワーク(CNN)を使っている。これもニューラルネットワークの一種で、フィルターやプール演算を適用して画像を処理することができる。
CNNは画像の分類やセグメンテーションのようなタスクには最適だが、物体の追跡や追従に関してはいくつかの制限がある。
例えば、CNNが扱えるのは、訓練されたオブジェクト・カテゴリの固定セットのみである。
また、さまざまな環境やシナリオでうまく動作させるためには、多くの手動チューニングやキャリブレーションが必要になる。
また、ターゲットオブジェクトを指定するために、バウンディングボックスやマスクのような複雑な入力を必要とすることが多いため、使い勝手が良いとは言えません。
FAnは、異なるアプローチを用いることで、これらの問題を解決する。
CNNの代わりに、ヴィジョン・トランスフォーマー(ViT)を使うのだ。
これは画像をパッチに分割し、トークンのシーケンスとして処理するトランスフォーマーである。
ViTsは、トランスフォーマーがテキスト中の異なる単語間の関係を捉えることができるように、画像の異なる部分間の関係を捉えることを学習することができる。
また、ViTは注意メカニズムに基づいているため、目の前のタスクに最も関連する画像の部分に焦点を当てることができる。
FAnは、ViTをビデオ内のオブジェクトのリアルタイム追跡とセグメンテーションに使用する。
それは対象物を識別し、背景と区別します。
必要なのはバウンディングボックスだけです。
その後、説明を入力したり、画像を表示したり、ビデオ内のオブジェクトをクリックしたりすることで、FAnに新しいオブジェクトを認識させることができます。
例えば、FAnに赤いボールを追跡させたい場合、red ballと入力するか、赤いボールの写真を表示するか、ビデオの中で赤いボールをクリックします。
FAnはビデオを通して赤いボールを追跡します。
指示を変えれば、簡単に別のオブジェクトに切り替えることができる。
印象的なのは、FAnが1つのアイテムを追跡するだけに限定されていないことだ。
それぞれに別々の指示を与えるだけで、複数の物体を同時に追跡できるのだ。
FAnは、ビジュアルオブジェクトのトラッキングとセグメンテーションで素晴らしいパフォーマンスを示し、リアルタイムで最高の結果を達成している。
標準的なGPUで1秒間に約55フレームで動作し、オクルージョン、速い動き、背景の乱れなどの課題に取り組むことができる。
Siam MaskやSeguratのような一般的なCNNベースの手法と比較すると、FAnはより正確でロバストであった。
これらの手法とは異なり、FAnは余分な訓練なしで様々なデータセットに対応できる。
この進歩は、ロボットがどのような環境でも、どのような物体とも簡単かつスマートに対話できる未来を示唆している。
あなたの命令を理解し、取ってきたり掃除をしたりするアシスタントロボットや、ゲームをしたり未知の場所を探検したりするロボットを想像してみてほしい。
将来は有望に見えますね、おそらく。
そして何より素晴らしいのは、FAnが一部の人しかアクセスできない独占技術ではないということだ。
研究者たちはコードとモデルをオンラインで公開し、誰でも利用したり改良したりできるようにしている。
GitHubのリポジトリで見ることができるので、ぜひチェックして自分で試してみてほしい。
さて、ビデオを見てくれてありがとう。
参考になっただろうか?
もし見ていただけたら、「いいね!」ボタンとチャンネル登録をお願いします。
また、ベルアイコンをクリックすると、新しいアップロードが更新されます。
改めてありがとうございます。次回お会いしましょう。