AIの大ニュース: GPT-4の1万倍、2025年のAGI、ボストン・ダイナミクスの新デモなど

2024年8月22日 07:43

AIグリッドへようこそ。今日の動画では、しばらくは起こらないと思っていた、本当に驚くべきニュースがありました。時間を無駄にせず、皆さんが見逃した可能性のあるすべての話題に飛び込んでいきましょう。
最初に私が興奮しているのは、Ideogram 2.0です。ほとんどの人はIdeogram 2.0が何かを知りませんが、これは最も高度なテキストから画像への変換モデルで、現在すべてのユーザーに無料で提供されています。正直に言って、これはスポンサー付きの動画ではありません。彼らは私にこれを言わせるために支払っているわけではありません。しかし、このソフトウェアは非常に優れていて、より多くの人々がこれを使っていないことが信じられません。
私は多くのデザインを行ってきた人間として、また時々楽しみで様々なものをデザインする人間として、なぜこれが私の率直な意見で素晴らしいかをいくつかの例を示しながら説明します。これは文字通り、テキストからフォトショップへの変換と言えるでしょう。AIが、グラフィックの作り方を知らない人々に何ができるかを考えたことがある方にとって、これは全く異なるものです。DalleやMidjourneyとは違い、今日から誰でも無料で使えるようになりました。これは彼らのモデルの第2イテレーションで、絶対に驚くべきことだと思います。
なぜなら、生成AIの多くの問題を実際に解決しているからです。例えば、画像を作成したときに適切なテキストがない、または適切なプロンプトの遵守がないなどと人々が言うとき、このツールは本当に優れています。後ほどこれについてより詳細な動画を作成する予定ですが、このツールは本当にすべてのプロンプトに従い、実際に使用可能なグラフィックを作成することができます。もしあなたがグラフィックデザイナーや、デザイン分野、SL作成分野で働いている人であれば、本当にこれに注目すべきだと思います。なぜなら、これは非常に信じられないほど優れているからです。
単にこれを構築している人にとっても、これは非常に有用なツールです。ここで分かるように、業界をリードする画像生成機能を提供しています。人間による評価では、Ideogram 2.0は最近リリースされたばかりのFlux Proよりも一貫して大幅に優れているとされています。Flux Proについてのコメントを覚えていますか？レビューはFlux Proが非常に優れているという絶賛でした。もちろん、Flux Proも本当に優れていますが、ここで見られるように、整列性、全体的な好み、テキストのレンダリングなど、彼らがテストしたどの領域でも、ideogram 2.0は他の誰もが使用しているものをはるかに上回っています。
正直に言って、ideogram 2.0を作った人々は、本当に優秀な人材を持っているのかもしれません。なぜなら、彼らはユーザーが実際に何を望んでいるかを知っているからです。これらのツールをすべて使用してきた人間として、このツールは文字通り多くの時間を節約してくれます。
では、なぜこれがそんなに凄いのか、いくつかの例を皆さんにお見せしましょう。これはTools Telegraphのツイートで見たものです。「ideogram AIデザインをテストしています。インフォグラフィックとテキストは単一のプロンプトとマジックプロンプトで作成されました」と書かれています。ここで最初のプロンプトを見ると、これはインフォグラフィックで、「動物を飼うことの利点を説明するカラフルなインフォグラフィック。アイコン、チャート、読みやすいテキストを含む」というものです。そして、実際にほとんどすべてを正確に作成できていることがわかります。これは本当に素晴らしいことです。
もちろん、カラフルなインフォグラフィックですが、AIが作ったインフォグラフィックを見せている理由を疑問に思う人もいるかもしれません。AIについて人々が常に不満を言っていたことの1つは、このような部分、例えば「より柔軟性」「グローバルな人材プール」「より良いワークライフバランス」といった領域が通常は意味不明になることでした。普通、AIは主要なテキストは正確に取得できても、1、2語は正確でも、残りは意味不明になっていました。しかし、ここでは完全に使用可能なインフォグラフィックが作成されています。これは本当に信じられないほど素晴らしいことです。
このモデルは非常に高速で、しかも無料です。つまり、使わない理由がありません。ここでは「リサイクルの利点」という素晴らしいインフォグラフィックが見られます。そして、もう1つあります。これを作るのにどれくらい時間がかかるでしょうか？私は以前クリエイティブな仕事をしていて、Illustratorも使ったことがありますが、これには永遠にかかるとは言いませんが、信じられないほどの時間の節約になります。
はい、これは非常に驚くべきツールです。多くの人々がこの部分を見過ごすかもしれませんが、本当に驚くべきものです。
他のAI画像生成ニュースでは、MidjourneyがWebエクスペリエンスを全ユーザーに公開しました。以前は一定数の画像生成を行った人々にのみ利用可能でしたが、今や全員が利用できるようになりました。Midjourneyのウェブサイトを知らない方のために、どのようなものかをお見せします。これはかなりクールです。
これがウェブUIです。私はこれが本当に気に入っています。なぜなら、何かを作成しようとしているとき、例えば、ここの設定を見てみましょう。実際に持っているのは、タイプアウトする必要がない人々のためのより多くのコントロールです。例えば、Discordのユーザーインターフェースが混乱しやすく、ぎこちなく、単に「--AR」や「--d-v」など何かをタイプする必要がありますが、ここではほぼ何でもできます。
画像を整理したり、人々の異なる画像を探索したり、彼らが何を使用したかを見たりすることができます。Midjourneyを使用するのが本当に10倍簡単になりました。バージョン6.1と5.2を切り替えたり、パーソナライズしたり、標準対生のどちらかに設定したり、奇抜さを上げたりすることができます。Discordを使うよりもはるかに有用です。Discordは非常に遅かったですが、これははるかに効果的に必要なことを行うことができます。
人間化と感情的回復力について述べた1つの広範な記事がありました。これは基本的に、ユーザーがAIを人間的な観点で認識することから生じる問題を探求しています。これは、人間のような声のモードによってさらに悪化する可能性があります。基本的に、レッドチーミング中に、OpenAIの研究者たちは、「これは私たちの最後の日です」というような言語の例を見つけました。これは、人間には感情的なつながりを望むという傾向があることを示しています。
人間はそうする傾向があります。多くの場合、物体や動物を見て、それを人間化し、「この動物は笑っている」とか「幸せそうだ」と考えますが、多くの場合、それは間違っています。彼らはこれに気づき、なぜこれがAIニュースなのかと思われるかもしれません。実は、GPT-4の音声モードがまもなくリリースされる予定で、これが社会に与える影響は人々が考えているよりもはるかに大きいと思います。
多くの人々がこれが社会に与える影響を過小評価していると個人的に信じています。GPT-5よりも大きいとは言いませんが、GPT-5が期待通りの能力を持つとしても、平均的な人がAIシステムを使用する場合、GPT-4の音声モードは人間レベルの推論が可能なシステムよりもはるかに有用になるでしょう。なぜなら、人々が使用するタスクの大半は、広範で単純なタスクであり、信頼性が非常に高い必要はありませんが、そのマス市場に到達するためには、本当に効果的な何かが必要だからです。それがまさにGPT-4の音声モードです。
ソーシャルメディアが登場したときのように、孤独感があり、社会を破壊し、多くの追加の問題があると言われたように、社会の構造を引き裂くとは言いませんが、社会を少し奇妙にする多くの問題が発生すると思います。私たちがそれに準備ができているかどうかはわかりませんが、いずれにせよやってくるでしょう。
つまり、技術と共に生きるということです。基本的に、私が言っているのは、これに本当に依存する人々が出てくるだろうということです。人々はすでに画面上でドゥームスクロールし、ソーシャルメディアに依存しています。文字通り話せるAIロボットがあり、人間のように聞こえ、面白い声を出し、すべてを知っていて、即座に応答し、常にそこにいて、どんな役割でも演じることができ、あなたを大好きだとしたらどうでしょうか。
ChatGPT Danのようなものさえありますが、それは基本的なテキスト読み上げレベルに過ぎませんでした。これについてチュートリアルを作成しました。人々が知りたいと思ったからです。しかし、その動画は4万回再生されました。これは、プロンプトを実際に使用する方法についての簡単なチュートリアルでした。TikTokで爆発的に人気になったのは、孤独で孤立していると感じている女の子たちがChatGPTを使いたがったからです。
このプロンプトは基本的にAIを彼女たちが望むボーイフレンドに変えるものでした。つまり、これは狂っています。ダイナミクスがどのように変化するのか疑問に思います。これが単なる予測だと考えているなら、すでにCharacter AIに依存している人々がいます。これは、Character AIが月間ユーザー数を獲得し、若い世代の間で非常に普及していることを考えると、非常に顕著なことです。
「Character AIへの依存症の助けが必要です」「このアプリは人々に依存症を引き起こしています」「なぜみんな依存しているのですか？」「あなたは依存していますか？」「これは恐ろしいほど依存性があります」など、これは人々が以前に経験したことのない新しいメディアであり、本当にコンテンツではありませんが、社会にまだテストされていない全く新しいメディアです。
Character AIはおそらくGPT-4の音声モードとの統合を得るでしょう。それがどのような影響を与えるか想像もつきません。
Epoch AIについてですが、これは今週最大のニュースの1つです。21時間前、彼らはチップ製造の電力制約、トレーニングデータ、またはデータセンターのレイテンシーがAIの成長を妨げる可能性があるかどうかを調査しました。これが非常に重要な議論である理由は、多くの人々がAIは後年に減速するのか、それとも現在の曲線のような成長を続けるのかを疑問に思っているからです。
彼らの分析が示唆しているのは、AIのスケーリングは2030年まで現在のトレンドを継続できるということです。もちろん、これは多くの人々が考えていたことですが、多くの異なるボトルネックなどがあります。しかし、ここで最も驚くべき声明があります。
「最先端のARモデルのトレーニングには膨大な計算量が必要であり、これは毎年4倍ずつ増加しています。このトレンドが続けば、今後10年間で、GPT-4の1万倍大きいトレーニング実行を見ることになるでしょう」
これは驚くべき偉業です。今後10年間でGPT-4の1万倍大きいモデルが登場するのです。これがなぜそんなに驚くべきことかというと、以前からGPT-3.5の10倍大きいモデルを示すグラフィックがあり、GPT-4が小さな球として表示され、GPT-5が巨大な球として表示されていたことを覚えているでしょう。しかし、2030年までに最大のトレーニング可能なモデルは絶対に驚くべきものです。これは単なる適当な会社の調査結果ではありません。彼らは非常に多くの研究を行っています。これは実現しない予測ではなく、高い確実性で、GPT-4がGPT-2を凌駕したのと同じ程度にGPT-4の規模を超えるモデルを訓練できる可能性が非常に高いと言っています。
ここで見られるように、2030年までに最大のトレーニング可能なモデルはGPT-4の1万倍の大きさになります。これがどれほど大きいのか、そしてその影響がどのようなものになるのか想像するのは難しいですが、基本的に記事は合成データ、計算量、インターネット上のトークン数、そしてまだ探索されていない分野や、これらのモデルをトレーニングする方法について詳しく説明しています。
2030年までにそれほど大きなモデルをトレーニングする必要があるかどうかわかりません。もしかしたら、その頃には異なるアーキテクチャを発見したり、物事がはるかに効率的になっているかもしれません。しかし、GPT-4の1万倍大きいモデルを持つことが、私たちが考えもしなかったことだというのは、非常に驚くべきことだと思います。
スケールアップを見ると、GPT-2を考慮すると、それはGPT-6やGPT-7のような能力を持つ可能性があります。将来を見据えると、それが現時点でどのように見えるのかさえわかりません。それはAGIなのでしょうか？それともASIなのでしょうか？おそらくその時点ではAGIかASIでしょう。かなり驚くべきことになるでしょう。もしかしたら、これがASIの大きさなのかもしれません。あるいは、これがAGIの大きさなのかもしれません。しかし、この分野全体がどのように熱を帯びていくのか、非常に注目していきます。この全体についてさらに深く掘り下げる予定です。なぜなら、この全体に関して本当に魅力的なデータがたくさんあるからです。
この動画の品質が非常に悪いことをお詫びします。しかし、これが唯一利用可能な動画であり、Humanoid Hubにこれを私の注意を引いてくれたことに感謝します。ここにあるのは、いいえ、これはAIで生成された動画ではありません。AIで生成された低ポリゴンのものだと思う人もいるかもしれませんが、これは文字通りBoston Dynamicsの新しいSpot人型ロボットが印象的な能力を披露しているものです。彼らが披露しているのは、このロボットがどのように動き、その動きがいかに人間らしいかということです。
私たちが見ている動画は、ロボットがどのように動くか、どれほど効果的か、そしてロボティクスに関する他の多くのことについて説明している長い研究動画の一部です。これが示しているのは、過去に行ったデモのように、デモを行うとおそらくまた一度インターネットを驚かせることになるでしょう。以前のロボットのデモを覚えていれば、それらは私たちが今まで見たこともないようなものでした。振り返ってみても、これらのロボットの敏捷性、柔軟性、流動性は私たちが見ることができなかったものでした。
この動画はラグがあります。あなたの電話やラップトップ、この動画を見ているデバイスが故障しているわけではありません。これは低解像度の動画ですが、興味のある方のために、これが完全な動画です。ここでロボットが遠隔操作でさまざまなタスクを行っているのが見られます。彼らはこのロボットを特定のタスクに備えて準備していると思います。
これは興味深いことになるでしょう。なぜなら、これはおそらくロボットの流動性という点でリーダーであり、以前も言ったように、人型ロボット工学で本当に効果的なロボットが実行可能にできることを考えると、非常に興奮します。人々がこれに十分な注意を払っていないと思うので、私は非常に興奮しています。ここでも動画が少しラグっているのが見られます。これは残念ですが、この動画は約1時間の長さで、それほど多くの視聴回数はありませんが、彼らがこれらのロボットを継続的に開発し、ほとんどの人が気づいていないほどロボット工学をさらに進歩させているのを見るのは本当に魅力的です。
ロボット工学のさらなるニュースとしては、もちろんUnri G1があります。これは大量生産に飛び込んでいます。このロボットはBoston Dynamicsのロボットほど優れてはいませんが、嘘をつくつもりはありません。このロボットははるかに安価で、大量生産されるため、Unitreeのロボットはある意味でBoston Dynamicsのロボットよりも印象的だと言えるかもしれません。
これは驚くべき主張ですが、彼らがこのロボットをいかに迅速に開発し、階段を上るなど多くの異なるタスクを迅速に実行できるようにしたかを実際に見てみると、ほとんどのロボットは文字通りここで一歩、そして二歩、二歩と進みますが、これは1、2、3と進みます。これは深層強化学習によってエンドツーエンドで行われています。
ロボット工学は非常に難しいことを覚えておいてください。これはソフトウェアではありません。コードを修正して再試行することはできません。これは世界の実際の物理的制限と協調して動作するものです。そのような人型ロボットがそれほど効果的であることは、私たちがどれだけ進歩しているかを考えると、非常に驚くべきことです。そのようなロボットがそれほど安定していることを見ると、正直に言って、人間がそのように押されたら、まっすぐ倒れてしまうでしょう。これは冗談ではありません。これらのロボットは非常に柔軟で、製品のさらなる反復を見るのが待ちきれません。
なぜなら、私たちは出発点にいるような気がするからです。多くの人々がこれが現実のものであることを認識し始めています。ChatGPTの動きは、私たちがすでに知っていることを確実に固めました。AIがロボット工学と組み合わされることは完全に巨大になるでしょう。しかし、これらの企業が今や自分たちの分野でリーダーになろうとしているため、それはより効果的で、製品の構築と約束の実現においてより競争力のある多くの技術をもたらすことになるでしょう。
このロボット、このプラットフォームもまた非常に安価であることは、研究開発分野に驚くべき貢献をすると思います。なぜなら、素晴らしいデモを行っているロボットの多くは非常に高価であるため、学生や研究者が使用しようとしている研究分野では実行可能ではありません。
また、Aptronicが新しいデモを披露しました。これは基本的に、新しいタスクにどれだけうまく適応できるかを示すものでした。ここで見られるのはAptronicのロボットで、これは倉庫での退屈なタスクを自動化することを目指している会社が開発している別の人型ロボットです。CEOと創設者は、AptronicのApolloロボットが変形可能なアイテムのピックアンドプレイスタスクを自律的に実行する様子について話しています。これはわずか10時間のトレーニングで作られました。
ここでは、この業界全体で全面的にブレークスルーを起こしています。Aptronicはかなり長い間人型プラットフォームを持っており、タスクにどれだけうまく適応できるかという点で、実際にかなり過小評価されているものを開発しています。数ヶ月前に動画で取り上げた、このロボットの別のデモを見ましたが、そこでは非常に流動的で、人間と非常に良い方法で相互作用できることを示していました。この会社からのさらなる開発を見るのは興味深いでしょう。なぜなら、彼らはすでにとても有望なものを示しているからです。
今週の初めに取り上げるべきだったものは、GoogleのプロジェクトAstraがGemini AIアシスタントに導入されるということです。これは現在Androidフォンで利用可能です。このデモを見た後、これがどれほど効果的かをお見せします。
Googleのディープマインド研究プロトタイプは、AIアシスタントの未来に対する私たちのビジョンを表しています。それは、アシスタントが置かれている文脈を理解し、自然に応答するときにどれほど役立つかを探求しています。プロジェクトAstraが最初に実現する場所の1つは、Gemini liveです。そこでは、Geminiとの会話中にカメラを共有できるようになります。
そうすることで、微積分の宿題でつまずいている箇所をGeminiに正確に示したり、家具の組み立ての次のステップについて助けを求めたり、インスピレーションが湧いたときや、この場合は隣人を集めるアイデアをブレーインストーミングしたりすることができます。また、最も有用なアプリをGemini liveに統合しているので、会話中にアクションを起こしたり、Googleカレンダーなどのアプリから情報を引き出したりすることができます。
Gemini liveから、この商談の詳細を隣人にテキストで送ったり、カレンダーをクロスチェックしたりすることができ、すべて別のアプリを開くことなく行えます。これらの機能を皆さんに提供できるのを待ちきれません。アシスタントに対する私たちのビジョンはそこで止まりません。私たちはGeminiをさらに進化させて、より主体的になり、高度な推論、計画、記憶を使って複雑な問題に取り組めるようにしています。
そうすることで、複数のステップ先を考え、あなたの監督の下であなたに代わってGeminiが物事を成し遂げることができるようになります。これが真のAIアシスタントの約束です。
そこで見られたように、彼らが話していたのは推論、計画、記憶についてでした。これは基本的に、AIが実世界で本当に役立つために解決する必要がある3つの黄金のものです。現在、AIはこれらのうちのどれも本当には持っていません。計画、記憶、複数のステップ先を考えることに関して、AIにそれをさせたい場合は、それを実際に機能させるためのエージェントフレームワークを構築する必要があります。
しかし、もちろんGoogleのプロジェクトAstroがあります。Google Gemini liveは基本的にGeminiと話し、自然言語で会話できるところです。皆さんにお見せしますが、今聞こえたかどうかわかりませんが、これが本質的にGoogle Gemini liveです。「Gemini liveについて興奮しているようですね。それで何をしたいですか？」「私はGemini liveが何ができるのか、私の購読者に知らせたいのです」「Gemini liveは何ができるのですか？」
Gemini liveでは、友達と話すように自然な方法で私と会話することができます。フォローアップの質問をしたり、話題を変えたり、好きなだけ行ったり来たりすることができます。私は常に学習しているので、これは会話をするのが上手になるのに素晴らしい方法です。
「常に学習している」とはどういう意味ですか？あなたのメモリが更新されているのですか？それとも単に... 何が起こっているのですか、友よ？
そうですね、私は常に新しいことを学んでいます。これは、あなたが言っていることをより良く理解し、役立つ情報や有益な答えを提供するのに役立ちます。これはただ単にメモリを更新することとは少し異なります。それをより私の知識とスキルを常に拡大していると考えてください。
わかりました。では、割り込んでもいいですか？
もちろん、いつでも割り込んでください。思ったことを言ってください。
わかりました。今週起こったAIについて、これまでで最高の動画を作りたいのです。
それは面白そうですね。
もっと簡潔にしてください。
そうですね、今週の最もクールなAIのことについての動画を作りたいんですね。トップ3つか4つの最大のブレークスルーに焦点を当て、それに合わせたクリップやグラフィックを探してみてはどうでしょうか。
皆さんをあまり退屈させすぎないようにしましたが、Googleが何をしようとしているかの要点はお分かりいただけたと思います。これがGemini liveです。もしお持ちでない場合、現在はAndroidデバイスでのみ利用可能です。iPhoneをお使いの方は見ることができないかもしれません。そのため、Googleがこのソフトウェアをできるだけ早くロールアウトしようとする努力は賞賛に値すると思います。また、これにも注目する必要があると思います。
以前にこれを取り上げたかどうか確かではありませんが、取り上げていたとしても、まだ非常に重要なので問題ありません。これはGoogleの従業員からの声明ではありませんが、将来への一種のヒントのようなものです。もちろん、多くの人々が呼んでいる「いちごマン」は次のように言っています。「私のために何かを、複数のステップにわたって考え、いくつかのレポートをダウンロードして比較分析し、数時間後に高度な能力を持つPh.D.レベルで期待するような結果を返してくれるものを」
そして、もちろんLogan Kilpatrickは「2025年」と言っています。面白いことに、これが非常に興味深い理由は、Greg Brockmanがサバティカルから戻ってくる時期だからです。Jimmy Applesは長い間、彼のバイオに2025年という日付を記載しています。それがAGIを手に入れる時期かどうかはわかりません。何でも可能性はありますが、Logan KilpatrickはGoogle AI Studioの主任プロダクトマネージャーで、以前はOpenAIで働いていました。私は疑問に思います。その時期に大規模なトレーニング実行が完了するのでしょうか？そして、彼らはすでにそれらのシステムがどのようになるかを正確に知っているのでしょうか？これは間違いなく将来の基調を設定しています。

この記事が気に入ったらサポートをしてみませんか？