OpenAIはDALL-E3という画像生成ソフトウェアをリリース予定で、GPT-4.5としても知られる。DALL-E3はデザイン用途に有用で、複数のAIモデルの組み合わせが今後のトレンドとされる。3D生成技術も進展中で、AI利用のリスクと対策が議論される中、YouTubeはクリエイター向けのAIツールセットを発表した。MicrosoftはWindows 11にAI機能を追加し、Googleとの連携を強化するBard、そしてAmazonのAlexaが音声改善を目指している。
公開日:2023年9月23日
※動画を再生してから読むのがオススメです。
さて、つい最近公開されたものにDALL-E3がある。
DALL-E3はDALL-E2に似ている。
Midjourneyのような、本質的な画像生成ソフトウェアだ。
でもこれはちょっと違いますね、OpenAIは実際に私が予測していなかったことをやったんです。
彼らができたことは、テキストを追加できたことです。
画面にあるように、Larry is so cute, what makes him super duperと書かれています。
つまり、彼らはこのチャットボットをDALL-E3と統合したのです。DALL-E3はもちろん画像生成ソフトウェアです。
だから、ステッカーをデザインしたり、いろいろなことを話したりできるんだ。
これはおそらくGPT-4.5だと思います。
なぜこれがGPT-4.5だと言うのか不思議に思うかもしれません。
なぜなら、以前にも話しましたが、ChatGPTは段階的にアップグレードされ、より多くの機能がリリースされることがわかっていますし、それは他の何よりもマルチモーダルになることがわかっています。
もちろん、これは技術的にはDALL-E3ですが、ChatGPTのアップグレードでもあります。
もちろん、みんなが気になっているのは、いつGPT5が出るのか、などなどです。
ChatGPTのアップデートは、GPT5に向けて、ゆっくりと、そして確実に行われています。
これはChatGPTの大きなアップデートです。テキストで話すことができるようになり、ChatGPTが画像を提供できるようになりました。
もちろん、これは以前の画像の機能とは少し違いますね、画像を分析することができる前のものとは。
しかし、MidJourneyのように画像を作成するには、これは本当に、本当にクールです。
リアルさという点ではMidJourneyと比べてどの程度優れているかはわからないが、ステッカーやさまざまな芸術的なものに関しては、かなり優れていることは確かだ。
ですから、これがいつリリースされるかはわかりません。
OpenAIは9月中にリリースすると言っていたと思いますが、これがどのように機能するのか、本当に、本当に興味深いです。
ですので、ChatGPTとMidJourneyの比較を見たい場合は、もちろん、DALL·E3とMidJourneyの比較ですが、ここで見える一番上のものは、もちろんMidJourneyです。
そして一番下が、いやいや、一番上がDALL-E3です。
そしてもちろん、この一番下がMidJourneyです。
さて、これは、宇宙が内部にあるハートのようなもので、空から雲が出てくるものです。
そして、私は彼らが私たちに見せたこれが、実際にはMidJourneyをこの領域で上回っていると思います。
しかし、繰り返しになるが、ある特定のイメージ世代から見えてきたのは、ある特定のイメージ世代がある特定のスタイルを最も得意としているということだ。
すべてのスタイルに最適なイメージ世代はないと思う。
MidJourneyでも、よりアーティスティックなものにはV4を、よりリアルなものにはV5を、よりリアルでアーティスティックなものにはバージョン5.2を使う必要がある。
例えば、これはダンサーの格好をした葉っぱや、擬人化された葉っぱ、カントリー・フォークロアの歌手の格好をした葉っぱの例です。
そして、これがDALL·Eで、かなり良さそうです。
もちろん、これは『ミッド・ジャーニー』だけど、さっきも言ったように、『ミッド・ジャーニー』でどのエンジンを使ったのかわからないから、判断できないんだ。
しかし、だからこそ、いろいろな異なるソフトがあり、どのバージョンがリリースされるかによって、異なる具体的な結果を生み出すことになると言っているのです。
そして、もちろん、こちらは湿った砂に潜んでいるヤドカリのクローズアップです。
上はもちろんデイリー3、下はもちろんミッド・ジェニーだ。
さっきも言ったように、ジャーニーの真ん中の方がよりリアルに、うーん、めちゃくちゃリアルに見える。
これは本物の写真だと信じたい。
もちろん、これもリアルに見えるようになっていますが、これが実際にエビゾウカニで、これが普通のカニだと言いたくはありません。
つまり、どちらがいいと思うかはあなた次第ということです。
コメント欄で皆さんの意見を知りたいですね。
さて、話を変えよう。
これは先週話したかったことなんだけど、ビデオが28分もあったから、入れる時間がなかったんだ。
しかし、これはマルチモーダルLMの次のGPTであり、GPT-5や他のすべての大規模言語モデルが目指すところです。
多くの業界関係者が、私たちは絶対にすべてをできるような大規模な言語モデルを決めるだろうと考えていることを知っています。そして、それが可能になるかもしれません。
しかし、私は、次のGPT、つまり、以前のマイクロソフトのJarvisや他のシステムのようなマルチモーダルLMに見られることは、これがはるかに現実的であるということだと思いたい。
つまり、真ん中にひとつの大きな言語モデルがあり、その大きな言語モデルが、特定のリクエストに対して他のすべての大きな言語モデルを呼び出すということだ。
例えば、画像を生成する必要があるときは、Mid JourneyやDaily 3を使う。
テキストが必要なときはChatGPTを使う。
音声が必要なときは、ElevenLabs APIを使う。
ヴィジョンが必要なときは、最高のヴィジョン・ジェネレーターを使う。
これらを組み合わせることで、1つのAIで何でもできるというよりは、AGIに近いものになると思います。
つまり、これは人間の体の働き方に似ていると思います、例えば、脳が嗅覚のために鼻を引っ張る、味覚のために舌を引っ張る、視覚のために目を使う、というように、脳がすべてを絶対にやるのではなく、引っ張っているんです。
だから、ある種の身体のようなものになると思うんだ。
これは論文であり、私たち人間は常に言葉を知覚し、さまざまな方法で人々とコミュニケーションを取るため、受け入れとコンテンツの提供が可能な任意の大規模言語モデルの開発は、人間レベルのAIにとって不可欠です、と書かれています。
そのため、Any-to-Any、つまりビデオさえも扱うことができるので、非常に興味深いものになると思います。
だから、それが物事が進む方向だと思う。
それがどのように機能するかを見るのは興味深いですね。
しかし、このような大規模な言語モデル・システムは、これから進んでいくと思います。
ChatGPTがすでにDALL-E3を使っているのを見たときでさえ、私たちはまさにそこに向かっていると思います。
AIの未来がどうなるのか気になるなら、これは良いショーです。
もうひとつ、これも紹介したいと思います。
これは3D生成のためのMVドリーム・マルチビュー・ディフュージョンと呼ばれるものです。
これは本当に素晴らしい。
つまり、私は何トンものさまざまな3Dモデル生成を見てきましたが、これは本当に本当に優れています。
まるで、実際にこの素材を使えるくらいの詳細レベルに近づいています。
Viking Axe fantasy weapon AK Blenderをご覧ください。
これはテキストから3Dへのプロンプトです。
つまり、これを見てください。
ガンダルフが微笑む白い髪の例ですね。
つまり、これは本当にとても良いです。
以前は、いろいろなものを見ることができましたが、もちろん、ここにあるように、他のプロジェクトや、すべての例を見ることができます。
これはぼやけている。
これはまあまあですが、これらはあまり良くありません。
そしてもちろん、様々な問題や様々な品質の問題を修正しているのがわかるだろう。
うーん、そうですね、これは本当に本当に有望ですね、なぜならこれと比較してこのレベルの詳細さを見ると、3Dでは毎週進化しているように感じますから。
そして、以前Redditで誰かが言っていたことなのですが、その投稿が何なのかは分かりませんが、彼らが言っていたのは、人々が求めているのは時に大きなブレークスルーなのだということです。
もちろん、それは起こる。
しかし、時には小さなレベルでのブレークスルーが、私たちが向かっているものが何であれ、よりスムーズな移行を可能にするのです。
もちろん、ここで3Dが10%ずつ改善されているのがわかります。毎月10%ずつ改善されています。
いつかは、すごいものを持つことができるかもしれません。
途中の旅では、毎月良くなっていきましたよね。
そして最終的には、かなりクレイジーなものができる。
これはクレイジーだね。
サングラスをかけたジャック・スパロウのような3Dモデルだ。
僕にとってはかなりクレイジーだね。
ええ、これは本当にすごいと思います。
とても興味深いと思います。
それで、ちょっと言いたいことがあるんだけど。
GitHubのページとか、Hugging Faceのスポットがあると思うんだけど。
でも、これは有望な結果を示している。これが完成すれば、みんな、本当に全体が変わるだろうからね。
それで、もちろん、こちらで見ることができますが、総資産がおおよそ5500億ドルのテクノロジー大物たちが、今日、AIの未来と規制についての上院フォーラムのために同じ部屋に集まりました。それはブルームバーグからの情報です。
ですので、こちらではAI分野のリーダーや先駆者となっている人々をすべて見ることができます。
彼らは、ある意味、この技術がどの方向に進むかの決定権を持っており、AIについて議論しています。
今、興味深かったのは、彼らが行った会話の1つです。
その会話はそれほど素晴らしいものではありませんでしたが、私が注目したいことがあります。なぜなら、十分に注意を払っている人が少ないと思うからです。
そして、私は再び、私たちが現在ボールを追っている競争の中にいることを示していると考えます。
ですので、ワシントンポストによれば、上院の会議での22人のテクノロジー大物のうちの1人、ヒュームンテクノロジーのセンターのトリスタン・ハリスは、彼のチームが僅か800時間でオープンソースの大規模言語モデル、LAMA 2の安全装置を取り除くことができ、AIは生物兵器を開発する指示に対して反応したと部屋に伝えました。
今、このことは問題であることを理解しなければなりません。なぜなら、もちろん、メタの最高責任者マーク・ザッカーバーグが、そのような指示はインターネット上で利用可能であると報じられたからです。
これはAIが高度なリサーチを行う一例です。
十分理解しました。
しかし、私たちが述べたように、これは始まりに過ぎません。
だから、覚えておいてください、これはかなり驚くべきことですね?
なぜなら、もちろん、彼らが述べるように、DeepMindはAlphaFoldを開発することができました。これはかなり驚くべきことです。
それは私たちが何年もかかるであろう多くの問題を解決しました。
ですので、ポイントは、もちろん、現在のAIシステムは素晴らしいとは言えません。
つまり、彼らは素晴らしいですが、完全に新しい生物学的エージェントを開発するほどには素晴らしくありません。
しかし、ポイントは、彼らがそれを実現することができるのであれば、5、10年後にはそれが驚くべきことになるでしょう。
なぜなら、私たちが誰もがアクセスできるオープンソースのツールを持っている場合、もちろん、それが誰もがアクセスできるのは良いことですが、それは、もちろん、悪意のある行為者に扉を開けることになります。
誰かが、一つの町全体を破壊し、世界の一部を破壊する何かを開発したいと思うかもしれません。
つまり、私たちはこれに対して注意を払う必要があります。
なぜなら、もし私たちが安全策を持っていない、または規制を持っていないならば、このようなものは間違った手に渡るでしょう。
そしてもちろん、彼らはこれをある意味で核爆弾と同じと考えています。
そして、地球上の全ての人々に核爆弾を与えることは、災害へのレシピです。
それを起爆させるのは一人だけで十分です。
そして、80億人の中で、単にどうなるかを見てみたいだけの十分に狂っている人が少なくともいることを私たちは知っています。
ですので、オープンソースのAIモデルが良いことは確かですが、私は最も良いとは思いません。なずなら、それを使って、詐欺を生み出したり、様々なことをするリスクが、単に高すぎるからです。
しかし、皆さんが何を考えているのか知るのは興味深いでしょう。
これらのオープンソースAIモデルがまだ許可されるべきか、あるいは悪意のある行為者のリスクが単に高すぎると思うか、教えてください。
それでは、ここに非常に興味深いことがあります。
これがより多くの認識を受けるようになったことに感謝しています。
これはChain of Thought autopilot thinking out loud in textと呼ばれる自動運転のことです。
Linger Oneは、しばらくの間で読んだ自動運転に関する最も興味深い作品です。
知覚の前に行動、知覚後にテキストの理論、そして行動です。
もしあなたがChain of Thoughtのプロンプトが何であるか知らないのであれば、大きな言語モデルに質問するところです。
まあ、例えば、私がGPTに「2プラス2は?」と聞いたとしましょう。
それは単に「4」と答えるかもしれません。
しかし、私がそれに「2プラス2は?」と尋ねたとしましょう。
そして、私が答えを出す前にあなたの推論をステップバイステップで考えて説明してと言ったとしましょう。
それからそれは、「2を加え、2を加えると、4になるから、2プラス2は4です」と言うでしょう。
もちろん、これはより複雑な質問のために意図されていますが、彼らは今、これを運転に適用していると言えます。
それはLingo Oneが進行中のシーンにコメントするビデオ言語モデルを訓練すると言います。
そして、あなたはそれに停止の計画と次に何をするのかを説明するように尋ねることができます。
もちろん、それはなぜこれらの決定をしたのかを示してくれます。
ですので、最初に、それは「私は遅い動きの交通のためにエッジングしています」と言っているのが見えます。
そして、もちろん、進むと、「私は道路脇に駐車している車両を追い越しています」と言います。
私はこれが興味深いと思います。なぜなら、これはこれらの大規模な言語モデルがどのように決定を下しているかについての洞察を与えてくれるからです。
私は今、道路がクリアであり、先行車両も停止しているため、加速しています。
そして、これがブレークスルーかもしれないと思います。
私は確信していませんが、エロン・マスクがコメントをしたことがあると思います。なぜなら、彼はLLMsについて話していたからです。
しかし、はい、私は、エロン・マスクがLLMsについて話す実際のツイートを見つけることができません。
ただ、これが他の決定よりも成功するかどうかは興味深いと思います。
もちろん、文脈的な推論は、我々が知っているように、モデルの応答をおおよそ20から30%、または場合によっては5倍向上させます。
だから、今はどうなるか見るのが興味深いです。また、とても興味深いのは、エロン・マスクが実際に1時間前に何かを言ったことで、彼は内部情報を持っていることを意味しています。
彼は、ミッドジャーニーが近いうちに何か重要なものをリリースするだろうと言いました。
これは、DALL·E3についてのツイートへの返信でした。
一旦展開されると、成長率はより速くなります。
そして、イーロン・マスクは、ミッドジャーニーが近いうちに何か重要なものをリリースすると言いました。
それは、もちろん、イーロン・マスクがミッドジャーニーの内情を知っているということを意味します。
それは驚くことではありません。もし私がそこで働いていたら、でも私はミッドジャーニーが具体的に何をリリースするのか考えてみます。
ついに3Dになるのでしょうか?
それが彼らが取り組んでいることだと言われています。
それとも、彼らが取り組んでいたとされるデスクトップブラウザ/エリアになるのでしょうか、それがリークされましたか?
それはリークされ、私がスクリーンショットを持っています、なぜなら彼らは誰もそれを見たくないからです。
私は彼らが単に競争を待っているだけで、あなたにそのようなものを保存したいと思っているのではないかと推測しています。
今、ここにあるツイートには、デイビッド・ホールズによれば、ミッドジャーニーV6はV5からのより大きな飛躍になり、画像品質とテキストプロンプトが向上するとあります。
そして、ミッドジャーニー3Dは次の6ヶ月以内に出るはずです。
3Dがどのように見えるか知りたい場合、このアカウント、ニック・フローツからの画像トレーラーがあります。
彼がこれを自分で作ったのかどうかはわかりません。
私はこれを見つけることができなかったので、彼だったと思いますが、これは非常に興味深いです。
これが可能なのは、このようなことをすでに行うソフトウェアと技術が存在するからです。
私は、ミッドジャーニーでこれが実際に起こると驚かないでしょう。なぜなら、これができることは、私たちが前に議論したように、犯罪現場のスナップショットや、実際に不動産をやってみる、または、どこに行くべきか、何を置くべきかを仮想的に探索しようとすることが、探偵や不動産業者にとって非常に興味深いと思われるからです。
私は確かにそれが次のものになると思います。
そして、ロボファブが世界初のヒューマノイドロボットの工場を紹介しています。
そして、このことはかなり驚くべきことです。なぜなら、ヒューマノイドロボットがますます人気になっているからです。
しかし、これは、実際にどこにでもあるヒューマノイドロボットのための工場です。
これが彼らの望むものです。
彼らはこれらの自動化された部屋のコストを削減しようとしています。
実際に、これについてもっと驚くべきことは、言い忘れましたが、彼らはロボットを使って実際にロボットを組み立てる工場で助けをする予定です。
だから、これは何とかして指数関数的であり、とても興味深いです。なぜなら、この技術的な発表がこんなにも早く起こるとは思っていなかったからです。
だから、これらのロボットは、もちろん、これらの企業がより多くの資金とクラウドファンディングを得ることを切望していることを私は確信しています。なぜなら、投資家たちは、何兆ドルもの価値があると予測されるこの巨大な産業から利益を得たいからです。
これがどのように進展するかを見るのが興味深いでしょう。
そこで、我々が驚くべきことになったのは、このプラットフォーム、YouTubeが、新しいAIツールをたくさんリリースし、コンテンツクリエーターになりたい人々を助けると言っていることでした。
このスタッフがどのように機能するのか、また、コンテンツ作成の全体的なプラットフォームをどのように変えるのかを見るのが興味深いでしょう。
それが実際に良いものになるのか、それともかなり悪いものになるのか、みんなが心配しています。
AI画像のショートやそのようなものだと言われています。
だから私は、ビデオの一部をここに残して、みなさんがそれがどのように見えるか、どのように機能するかを正確に見ることができるようにします。なぜなら、この説明は私のものよりもずっと優れているからです。
実際に録画していますか?
実際、ああ、録画しています。
わかりました、うまくいきます。行きましょう。
さて、YouTubeは、このAIと編集ツールのセットを発表しました。これはプラットフォームを革命的にし、全員にとっての作成をより簡単で楽しくします。
目標は、これまでにないほどのクリエイターのためのクリエイティビティを解放することです。
私にとって最も興奮する部分は、発表されたものが実際には始まりに過ぎないということです。
さっそく話しましょう。DreamScreenという、YouTubeショートに登場する新しい画像とビデオ生成の実験についてです。
驚異的なAI技術によって駆動されているDreamScreenは、アイデアをテキストプロンプトとして入力するだけで、あなたの想像力を生き生きとさせます。
それは、シーンを設定するために使用できる超楽しい画像とビデオを生成します。
さて、これをアクションで見てみましょう。 (笑) 私は出て行くのが嫌だ。
これは素敵です。
これらの新しいツールは、デジタルアートの境界を拡大しています。
それだけではない。
YouTube Createに会ってみてください。
これはYouTubeが誰もが編集を簡単にするために開発している新しいアプリです。
そして、無料です。
数千のロイヤリティフリーのトラックや効果音へのアクセスが含まれています。
ワンタップでビデオのキャプションを自動作成することができます。
クレオ・ジェイド、あなたはうっかりしていませんか?
本当にこれについて非常に興奮しています。
最後に、そして私のお気に入りは、バックグラウンドのノイズをクリーンアップし除去する機能があります。
私はニューヨークに住んでいます。
それは本当に役立つでしょう。
YouTube Createのベータ版は、現在、一部の国のクリエイター向けにAndroidで最初に利用可能です。
ぜひチェックしてみてください。
これらの発表は、YouTubeがコンテンツの作成方法を本当に変え始めていることを示しており、今まで以上に多くのクリエイターが多くの方法でコンテンツを作成するのを支援しています。
彼らは私たちの最も夢のようなアイディアと実際に作成できるものとの間のギャップを縮めています。
それまで、物を作り続けてください。
YouTubeでお会いしましょう。
もちろん、MicrosoftがWindows 11のアップデートであるYour Copilotを発表したことがあります。
そして、それにはPaint、Photos、ClipChampなど、あなたのWindows PC向けの多くのAIのアップデートがほとんど含まれています。
もちろん、BingがOpenAIからの最新のDALL·E3モデルのサポートを追加し、検索履歴に基づいてよりパーソナライズされた答えを提供する方法についても話しました。
もちろん、基本的にはすべてを大幅に向上させるアップデート全体です。
なので、MicrosoftがこのAI全体をシステム全体に押し出しているので、非常に興味深いです。
今、これが興味深いと思うのは、もちろん、Appleのオペレーティングソフトウェアがこれを全く利用していないからです。
そして、Appleが現在AIのレースで遅れをとっているようです。
彼らはまだ何も話しても予期してもいません。
もちろん、AIのものは非常に迅速に、そして人々が予期するよりも早く動くので、Microsoftがどのようにして地盤を固めるかを見るのが興味深いでしょう。
もちろん、Internet Explorerが実際にGoogleを驚かせたという事実があります。
もちろん、この全ビデオを見せてあげたいと思います。
私はこれに関する専用のビデオを作成するかもしれません。
しかし、もちろん、Bardが今あなたのGoogle Appsやサービスに接続できることがわかります。
それは、BardをあなたのGoogle Appsやサービスと一緒に使用するということです。
その応答を簡単にダブルチェックして、より多くの場所で機能にアクセスできます。
これは実際にどういう意味なのか?
あなたがGoogle Driveを持っていたり、Gmailを持っていたり、YouTubeを持っていたりすることを知っているでしょう。
実際にBardを使ってGoogle Driveをチェックしたり、Gmailをチェックしたり、YouTubeをチェックしたり、Google Flightsをチェックしたり、実際にはほとんどすべての編集をチェックすることができます。
これは実際に素晴らしい個人アシスタントを持っているようなものです。
これは本当に、本当に、本当にクールで、これはChatGPTよりも価値のあるものです。
もちろん、ChatGPTは素晴らしいですが、あなたには人がいます。
ChatGPTの大きな問題の一つは、情報が必要な場合、その情報を提供する必要があることです。
特にChatGPTを使用してメールに応答したり、ビジネスや会社の仕事をしたりする場合、更新後に情報を常に供給することは非常に時間がかかります。
特にアップデート後は、情報を常に与え続ける必要があり、非常に時間がかかります。
それがBardの役割です。
そして、すでにGmailと接続されています。
共有された会話のサポートなど、さまざまな機能を提供できます。
これを持っていることは本当に素晴らしいことです。
わかりました、これはまた、私たちが言ったように、ここでの一歩前進になるものです。
もちろん、Bardに入ると、Bardの拡張機能も含まれています。
これらのすべてのアップデートに非常に興奮しているので、ぜひ私に知らせてください。
このビデオのコメントセクションで私に意見や質問をしてください。
そして、もし気に入ったら、このビデオを友達や家族と共有してください。
もしBardに自信がない場合、またはBardが何かに自信がない場合、ボタンをクリックすると、その応答の正確さが表示されます。
もちろん、そこでたくさんの情報が提供されています。
そして、もちろん、YouTubeチャンネルでのすべてのサポートを感謝しています。
なので、Bardの新しい機能の一つで、インターネット上で見つけた車の写真をランダムに撮影しました。
そして、文字通り「YouTubeでこれを検索」と言っただけです。
もしご存知ない場合は、「Googleでこれを検索」や「YouTubeでこれを検索」と言えます。
そして、基本的には、それに関するYouTubeの動画を提供してくれるようになります。
なので、どのような車を選択するのか非常に興味深く見ていきたいと思います。
そして、ここにリンクされているものは何か。
本当に、非常に興味深いです。
また、「YouTubeの動画の視聴履歴がYouTubeの履歴に保存されます」とも言っています。
だから、私はこれが人々が予想していたよりもっと多く使われることになると思います。
次に、もちろん、AmazonのAlexaの声があります。
それはもっと自然で、もっと良く、もっと明確になることが許されています。
だから、これは興味深いことになります。これは、私たちが今年の初めに予想していたことです。
私たちはBedrockを行いました、それは彼らのさまざまなAPIとサービスすべてにさまざまなFoundationモデルの集まりでした。
しかし、これはもちろん、彼らの主力製品、すなわちAlexa、または多くの方が知っているAmazonのAstrosに関するものです。
このクリップをご覧ください、なぜならAmazonが何をしているのかを正確に示していると思うからです。
そして、もちろん、Amazon AlexaはSiriやGoogleなど他のものが注目を浴びて以来、あまり注目されていませんでした。
しかし、私は、自然に聞こえる大きな言語モデルと統合されており、最初から本当に良い家庭用デバイスを手に入れることができる企業、実際に役立ち、冗談を言ったりできる企業が、間違いなくこの次の波を席巻するだろうと思います。