OpenAIはDolly 3をリリースし、Chat GPTにウェブブラウジング機能を復活・マルチモーダル機能を追加した。Sam Almanは冗談でAGI達成を発表。Johnny IとSam AlmanのAI iPhone制作の噂。TeslaのOptimusロボットは自己キャリブレーション能力を持つ。MetaはAI機能のサングラスをRaybanと共同で、またMeta AIやAIキャラクター、AI生成アート製品Emuをリリースした。MicrosoftはWindows 11にAIアシスタント「Copilot」を搭載。SpaceXは米国宇宙軍との衛星通信契約を獲得。CIAは中国対抗のAIツールを開発中。Quantum ComputingにはGoogleやIBMが投資。YouTubeはAI機能をクリエイター向けに追加。GoogleはOpenAI対抗のAIモデル「Gemini」を開発中。
公開日:2023年9月30日
※動画を再生してから読むのがオススメです。
そして我々は戻ってきた。
先週の旅行から戻ってきただけでなく、AIの世界もAIのニュースで大いに盛り上がっています。
今週、MetaとOpenAIのAIバトルは、OpenAIの数々のゲームチェンジャーによってヒートアップし、ChatGPTに信じられないような新機能をもたらしました。
Metaもまた、さらなるAI機能とAI対応サングラスを発表している。
アマゾンは大手AI企業に巨額の投資を行い、AI競争に追いつこうとしている。
テスラは最新のOptimusロボットを披露し、マイクロソフトはAIを全てに組み込んだWindows 11を発表する。
座ってリラックスし、最も重要なAIニュースの内訳を見るために購読することを忘れないでください!
今週のAIニュースは、OpenAIが数々の新機能を発表し、完全に独占した。
正直なところ、これらのうちの一つを発表するだけでもすごいことだ。
まず、OpenAIはDolly 3を発表した。
これは実は先週行われたのだが、その話をする機会がなかった。
Dolly 3はジェネレーティブ・アート製品の最新バージョンで、MidjourneyやLeonardoと直接競合する。
私が見た最初のサンプルでは、ドリーはMidjourneyの最新バージョンと同等になっている。
これらの画像をご覧ください。
また、私が感心したのは、ドリーが作成できるスタイルの幅の広さだ。
バージョン3は、バージョン2に比べて大きな飛躍です。
V2とV3をプロンプトで比較した例をご覧ください: 星雲の爆発のように描かれたバスケットボール選手のダンクの表現力豊かな油絵。
ドリー3はまた、ジェネレーティブ・アートでは常に苦労してきた、読みやすいテキストを画像内に生成することができるようだ。
さらに、ChatGPT上でネイティブに構築されているため、ChatGPTをブレインストーミングのパートナーとして使用し、最適なプロンプトを作成することができる。
これはすでにMidjourneyでプロンプトを作成するための一般的なテクニックですが、今ではChatGPTのワークフローにシームレスに組み込まれています。
OpenAIはDolly 3の安全性テストに多くの時間を費やしました。
彼らのブログポストによると、Dolly 3は公人の名前を尋ねるリクエストを拒否する緩和策を持っています。
これらは、公人の生成や視覚的な過不足表現に関連する有害なバイアスなどのリスク領域における安全性能を向上させる。
モデルをストレステストするレッドチーマーやドメインエキスパートとの連携により、プロパガンダや誤報のような分野におけるリスク評価と緩和の取り組みを知らせるのに役立つ。
もちろん、こうしたAIツールのすべてがより優れたものになるにつれて、これは大きな問題になるだろう。
現在、ドリー3はChatGPTプラスとエンタープライズのユーザーしか利用できないが、月額20ドルの価値は、特に次のような話を聞けば、ますます高まっていくだろう。
もう一つのOpenAIのローンチは、ChatGPTでのウェブブラウジングです。
今、ChatGPTはモデルに組み込まれたものだけでなく、インターネット全体にアクセスできます。
私たちは頻繁に私の知識の切れ目は2021年9月ですという警告を受けます。
でも、ChatGPTはすでにウェブ・ブラウジングが可能だったのでは?
そして答えは、そうです、彼らはしました。
素晴らしい機能でした。
しかし数ヶ月前、OpenAIは大した説明もなくこの機能を無効にしました。
唯一の理由は、ChatGPTのブラウジングが意図しない方法でコンテンツを表示することがあるということでした。
つまり、彼らが提示した例は、ユーザーがURLの全文を要求し、ChatGPTが実際にそれを与えるというものです。
これはおそらく同社にとって大きな著作権リスクであり、ChatGPTの削除を決めた理由でもある。
しかし今、ウェブサイトの所有者は、Googleのようなウェブクローラーが使用するものと同じものであるrobots.txtファイルを通して、ChatGPTが自分のサイトからコンテンツを引き出せるようにするかどうかを決めることができます。
ChatGPTがより強力になるので、ブラウジングが復活して嬉しいです。
そして、OpenAIによる今週最大かつ最も印象的なローンチでは、ChatGPTは現在、見る、聞く、話す能力を備えています。
これはマルチモーダルと呼ばれ、このマルチモーダル機能により、ChatGPTは画像を読み上げたり、ユーザーと音声対話することができる。
ブログ記事で紹介されている例では、あるユーザーがChatGPTに自転車のシートの下げ方を尋ね、文脈のために自転車の写真を提供します。
ChatGPTはいくつかのアドバイスを提供し、ユーザーは調整する必要がありそうな自転車の特定の部分を示す別の画像でフォローアップする。
このやりとりの後、ChatGPTはユーザーの特定の自転車に対するアドバイスを提供します。
そして、ユーザーは自分の工具セットの写真を見せると、ChatGPTはどの工具を使うべきかを教えてくれる。
これには本当に驚かされました。
例えば、手書きのウェブサイトのフローチャートを作成すると、ChatGPTはウェブサイト全体を構築します。
もし、私が集めたChatGPTビジョンの素晴らしい例を紹介するビデオを作りたいなら、コメントで教えてください。
しかし、それだけではありません。
ChatGPTは音声コミュニケーションもできるようになり、完全な会話ができるようになりました。
スマホでChatGPTアプリを開いて話し始めるだけ。
ChatGPTもテキストだけでなく、音声で返事を返してくれる。
声優を使って訓練したそうだが、その声は実にうまく、ロボットっぽさはまったくない。
ラリーは他の誰とも違うユニークなヘッジホッグだった。
これらの機能は、今後2週間かけてChatGPTプラスのユーザーに展開される。
OpenAIはまた、Spotifyのポッドキャスターに、自分の声をさまざまな言語に翻訳する機能を与えた。
しかし、それは吹き替えでも書き起こしでもなく、実際のポッドキャスターの声ですが、異なる言語です。
私の声で、スペイン語、ポルトガル語、イタリア語、フランス語、北京語を話していることを除いて、このビデオを想像してみてください。
これは本当にすごいことで、私のコンテンツやみんなのコンテンツを世界中のもっと幅広い視聴者に開放してくれる。
レックス・フリードマンがスペイン語で話している映像をご覧ください。
これらの機能は、Siriがこれまでずっと実現できていたものだと思いますが、いかがですか?
AppleはChatGPTに対抗するために達成しなければならない大きな目標がありますが、彼らはこの機能の多くに取り組んでSiriに取り込んでいることを知っています。
さて、今週はOpenAIのニュースばかりのような気がしますが、もう少しで終わります。
Redditで、サム・アルトマンはOpenAIがAGIを達成したことを確認したようだが、すぐに冗談だとわかるようにフォローした。
ははは!
AGIを目標とし、最先端のAI技術をリードしている会社にとって、この冗談は本末転倒だ。
なぜ冗談を言ったのかわからない。
それは簡単に本物であり、多くの人々を怖がらせることができました。
しかし、彼は再び、冗談であり、実際に発表するとしてもRedditのコメントではしないと明言した。
十分フェアだが、それでも面白くない。
彼はAIを作ることに専念し、冗談はコメディアンに任せるべきだろう。
OpenAIに関する最後の話は興味深い噂だ。
有名なデザイナー、ジョニー・アイブは、Mac、iPod、iPhoneなどの製品に携わり、アップルを今日のようなデザイン大国に変貌させた人物だが、AIのiPhoneを作るためにサム・アルトマンと交渉中だと報じられている。
どうやら彼らは、このプロジェクトのためにソフトバンクのCEOで創業者の孫正義から10億ドルを調達し、ハードウェアにはチップメーカーのARMを含める可能性があるようだ。
この話について確認できることはほとんどないが、進展があれば、ぜひまたお伝えしたい。
次に、未来への加速として、テスラはオプティマスロボットの新しいビデオを公開した。
わずか数年前の発表以来、オプティマスは大きく進化している。
つまり、最初の発表では、文字通りロボットスーツを着た人間が踊っていたのだ。
このアップデートのビデオでは、オプティマスは現在、視覚と関節の位置だけを使って腕と脚のセルフキャリブレーションが可能で、環境がダイナミックに変化しているときでも、ブロックを色別に分類し、片脚でバランスをとるコーディングができる。
ボストン・ダイナミクスは、文字通りパルクールをこなすロボットで、今のところまだロボット工学の王者である。
しかし、彼らは何十年もそれに取り組んできたし、前述の通り、テスラは開発に着手してまだ2、3年しか経っていないが、その進歩には目を見張るものがある。
次に、メタ社は今週いくつかの主要なAIを発表した。
まず、MetaはMeta AIを発表した。Meta AIは、同社の全製品にまたがる新しいAI体験である。
Meta AIはベータ版で、WhatsApp MessengerとInstagramで利用可能な高度な会話アシスタントだ。
また、新しいQuest 3 VRや新しいサングラス製品にも搭載される予定だ。
Metaのブログポストによると、Meta AIは、LLaMA 2の技術と最新の大規模言語モデル研究を活用したカスタムモデルを搭載している。
テキストベースのチャットでは、Meta AIはBingとの検索パートナーシップを通じてリアルタイムの情報にアクセスでき、画像生成ツールも提供している。
つまり、マイクロソフトはChatGPTのブラウジングだけでなく、Meta AIのブラウジングもサポートしているのだ。
ここでの勝者は明らかにマイクロソフトのようだ。
さらに、Metaは、より個性的で、意見や興味を持ち、対話するのが少し楽しいAIを作成している。
Meta AIに加え、WhatsAppメッセンジャーやInstagramでメッセージのやり取りができるAIが28種類ある。
これらのAIはユニークなバックストーリーを持つ新しいキャラクターと考えることができます。
TikTokのスターであるCharlie D'Amelio、Chris Paul、Kendall Jenner、Mr. Beast、Snoop Doggなどです。
ブログ記事にはキャラクターの完全なリストがあります。以下の説明にリンクを貼ります。
私はAIスヌープ・ドッグに夢中です。
あなたは誰を使いますか?
メタ社はまた、次世代AIジェネレーティブ・アート製品「Emu」を発表した。
EmuはMidjourneyと直接競合することを狙っており、Messengerを含む同社のさまざまな製品に直接組み込まれている。
Emuは、Messengerプラットフォームで絶大な人気を誇るステッカーも作成できる。
彼らはまた、InstagramとWhatsAppにAIジェネレーティブアート機能を組み込んでいる。
自社製品にジェネレーティブ・アートを加えるというテーマを継続し、Metaもまた、Segment Anythingの研究論文からの学習を使ってAI画像編集機能を追加する。
例えば、Backdropと呼ばれる機能で、写真の背景を簡単に変えて場所を変えることができるようになる。
また、安全性の名目で、AIで作成または操作された画像には明確なマークを付ける予定だ。
そして、私がこのようなことをする大ファンであることはすでにご存知の通りだ。
AIで生成されたコンテンツはすべて、そのようにマークされるべきだと思う。
次に、前述の通り、メタはレイバンと提携してサングラスを発売する。
このメガネは実際に普通に見える。
10年ほど前にグーグルがスマートグラスを作ろうとしたのを覚えているだろうか?
そう、これはそれとは違う。
Metaのメガネには大量のAI機能が搭載され、ライブストリーム、写真撮影、音楽再生、電話、Meta AIとのチャットが簡単にできるようになる。
このメガネには2つのスタイルと多くのカラーバリエーションがある。
そして、それらを明確にユニークにする唯一の本当の違いは、前面のカメラです。
これはプライバシーの悪夢のように思えるが、すでに誰もがポケットにカメラを持っているのだから、大差ないのかもしれない。
あなたはどう思いますか?
Metaはまた、Quest VRヘッドセットの新バージョンを発表した。
最近MetaからAIのニュースばかりが流れてくるので、マーク・ザッカーバーグがメタバースを軸に会社全体を方向転換したことを忘れがちだ。
Quest 3は、処理能力の向上、グラフィックと解像度の改善、薄型化、音質の向上が図られる予定だ。
メタは、間もなく発売されるアップル・ビジョン・ヘッドセットに備えるために競争している。
私は過去にVRヘッドセットで遊んだことがあるが、日常的なワークフローの一部にはならなかった。
本当にクールなのだが、日常的な使用例が見つからないのだ。
私はApple Visionにとても興奮している。それは私が大のAppleファンボーイだからかもしれない。
しかし、この新しいMeta Questもとてもクールで、Meta Questの価格は499ドルで、Apple Visionの7分の1だ。
つまり、MetaはAppleとは全く異なる市場アプローチを取っているのだ。
しかし、MetaはQuest 3をMixed Realityヘッドセットと明確に表示している。
これはおそらく、アップルが自社のヘッドセットを複合現実と呼び、バーチャルリアリティという言葉を使わなかったことに対抗したものだろう。
VRという言葉は流行らなくなったようだ。
次に、ミストラルAIは独自の70億パラメータ大規模言語モデルを発表した。
Mistral 7Bと呼ばれるこの新しいモデルは、すべてのベンチマークでLLaMA 2.7Bを、多くのベンチマークでLLaMA 1.34Bを上回っている。
そして何よりも、Apache 2.0ライセンスによる100%オープンソースである。
発表されたブログ記事によると、英語のタスクに優れながら、コード上ではLLaMA 7Bのパフォーマンスに近づいている。
AIのベンチマークはどれも素晴らしいが、実際の使用例には必ずしも当てはまらないことがわかった。
私自身で完全なテストを行い、それについてのビデオを作りましょうか?
コメントで教えてください。
次に、AI競争から取り残されることなく、アマゾンは今週いくつかのAIに関する発表を行った。
まず、アマゾンはAI企業Anthropicの株式を大量に取得した。
Anthropic社は、ChatGPTの直接のライバルであり、非常に有能なClaudeのメーカーである。
アマゾンはAnthropicに40億ドルを投資したが、AWSがAnthropicの主要クラウドプロバイダーになるなど、両社のより大きな協力関係を示唆した。
両社はすでに、AWSの数あるクラウドサービスのひとつであるAmazon Bedrock上でクラウドモデルの提供を開始している。
Bedrockを使ってクロードをカスタマイズし、微調整できるようになる。
クロードのAI機能は、他のアマゾン製品にも組み込まれ始めるだろう。
マイクロソフトがOpenAIに莫大な投資を行い、Azureを通じてクラウドサービスも提供していることから、これはマイクロソフトとOpenAIの同様の戦略と呼応する、アマゾンの賢い動きだ。
アマゾンはまた、アレクサにジェネレーティブAI機能を搭載しようとしている。
アマゾンのデバイス・サービス担当SVPであるデイブ・リンプによると、「我々の最新モデルは、音声と、リアルタイム情報へのアクセス、スマートホームの効率的なコントロール、ホームエンターテインメントの最大活用といった、我々の顧客が好きだと分かっていることに特に最適化されている」。
アマゾンの新しいAIとアレクサは会話型になり、音声だけでなく、ボディランゲージ、アイコンタクト、ジェスチャーも考慮されます。
また、アマゾンがしばらくの間、この分野で明確な勝者であったスマートホームのコントロールもできるようになる。
次に、Midjourneyの競合だが素晴らしいインターフェースを持つLeonardが、Elementsと呼ばれる新機能を発表した。
Elementsは、GANワークフローにLurasを組み込む機能を追加する。
発表によると、様々なスタイルをシームレスにブレンドし、モデルをミックスし、クリエイティブなビジョンに完璧に沿った素晴らしいエフェクトを実現するためのプロセスを簡素化しました。
バロック、グラス、スティール、インフェルノ、その他多くのアーティスティックなスタイルを組み合わせることで、生成された画像に強力なエフェクトの数々を作り出すことができます。
Leonardは、MidjourneyやDolly 3を含む複数のゴリアテに対するダビデであることは明らかですが、私はごく初期の頃からLeonardの大ファンでした。
私の最初のビデオのひとつがレナードについてのものだったので、彼らを応援しています。
エレメンツは今なら全ユーザーが利用可能なので、ぜひチェックしてほしい。
マイクロソフトは今週、コパイロットを搭載したWindows 11を発表した。
発表によると、Windows 11の新機能であるCopilotは、AIを搭載したインテリジェントなアシスタントで、ウェブ全体から答えやインスピレーションを得るのを助け、創造性とコラボレーションをサポートし、目の前のタスクに集中できるようにします。
CopilotはWindowsオペレーティングシステムのほぼすべての側面に組み込まれており、質問に答えるだけでなく、Windows環境のさまざまな側面を制御することもできる。
私はまだCopilotをダウンロードして使いこなす機会がないが、近いうちにぜひ試してみたい。
次に、AIのニュースではないが、未来的であることは確かだ。
イーロン・マスクのSpaceXは、Star Shieldと米宇宙軍の大型契約を獲得した。
SpaceXは、同社の新しいStar Shieldプログラムのもと、カスタマイズされた衛星通信を軍に提供する。
CNBCからの引用によると、SpaceXの契約は、Starlinkコンステレーション、ユーザー端末、補助装置、ネットワーク管理、およびその他の関連サービスを介してStar Shieldのエンドツーエンドのサービスを提供する。
宇宙軍の広報担当リン・ステパニック氏は、「スター・シールドはスペースX社にとって昨年立ち上げたばかりの新しい事業であり、国防総省はすでに同社のロケットを購入しているので、すでに既存の関係がある。
これについてはまだ詳細はほとんどわかりませんが、私が見守ります。
また政府のニュースでは、CIAが中国の能力に対抗するために独自のAIツールを構築している。
decrypt.coによると、このツールは一般に入手可能なデータで訓練され、米国のスパイが情報を素早く確認するのを助けることを目的としている。
発売日はまだ決まっておらず、OpenAIやMetaのような大手AI企業と協力するつもりなのだろうか。
CIAのAIは、アメリカの安全を守るために、大量のデータを分析できるようになるだろう。
次に、どうやら本当に心配すべきテクノロジーはAIではなく、量子コンピューティングのようだ。
量子コンピューティングは、われわれの世界を改善する驚異的なコンピューティングパワーを約束してくれるだけでなく、暗号化など他の多くのセキュリティ技術を根底から覆す恐れがある。
量子コンピューティングは、2進数として知られる1と0を使う標準的なコンピューターのようには動作せず、その代わりに量子ビット(qubits)を使うことで、可能な結果を無制限に計算することができる。
この方法は、物流、医療、金融、サイバーセキュリティ、気象予測など、多くの産業を変革する可能性を秘めている。
大手ハイテク企業は、グーグルやIBMをはじめ、量子コンピューティングの開発に多額の投資を行っている。
しかし、スパイダーマンのベンおじさんが言ったように、大きな力には大きな責任が伴う。
次に、YouTubeは多くのAI機能をローンチする。私自身YouTubeクリエイターであるため、これには本当に興奮している。
プロンプトを入力することで、自分自身を視覚的にどこにでも移動させる方法であるDream Screenを使ったAIビデオなど、これらのAI機能をまとめてくれたBillow Wal Suduに感謝する。
そして、これはYouTube Shortsで利用可能になる予定で、画像と動画の両方で幻想的な背景を生成する。
また、YouTube Createと呼ばれる無料の編集アプリは、高品質の動画を数分で作るための簡単なプロ仕様の編集ツールを提供するモバイルアプリで、おそらくCapCutによく似ている。
パーソナライズされたAIインサイト。YouTube Studioで、あなたのチャンネルや現在のトレンドに基づいた動画のアイデアやアウトラインを得ることができる。
Aloudと呼ばれる機能による自動吹き替えは、ワンクリックであなたの動画を自動的に他の言語に吹き替え、ローカライズします。
あなたの動画にぴったりの無料サウンドトラックを自動的に探し出し、AIがあなたの音楽に最も合う曲やビートを推薦してくれるアシスト音楽検索。
そして、AIが生成した音楽も含まれるに違いない。
だから、YouTubeクリエイターのための機能がたくさん用意されている。
今週のAI動画は、Tim Grmanさんが提案してくれましたので、ありがとうございます。
この動画では、コンサート中に素晴らしい巨大な映像が見られ、急速に進化するスケルトンの男性が映し出されています。
その映像は見事で、実際にその場にいて、巨大なスクリーンでその映像を見て、周りにいるすべての人々、流れている音楽、そして信じられないようなエネルギーがどんなものだったのか、想像すらできない。
今すぐビデオをチェックしてください。
永遠を映し出す、さらにその先へ。
最後の話は、グーグルがGPT-4の直接のライバルであるGeminiのローンチを間近に控えていることだ。
そして、OpenAIはマルチモーダル機能のローンチでグーグルに先んじたが、Geminiはローンチ時にマルチモーダル機能を含むと噂されている。
グーグルは現在、テスト目的で少数の企業にジェミニへのアクセスを提供している。
ジェミニはAIモデルの集合体であり、インターネットだけでなく、電子メール、カレンダー、ドキュメントなどのあらゆる情報にアクセスできる。
また、ChatGPTがすでにサポートしているすべての機能である、コードを書いたり画像を生成したりすることもできる。
以前にも触れたことがあるが、グーグルを含むすべてのテック企業がOpenAIに追いついているように見える。
グーグルにとっては特に悔しいことだろう。このAI技術の波を巻き起こしたオリジナルの研究論文を発表したのだから。
注意を払うだけでいいのだ。
もしこの動画が気に入ったら、いいねとチャンネル登録を考えていただけると嬉しいです。次の動画でお会いしましょう。