イーロンのAGIに関する新しい予測、METAの新しいエージェント、新しいSORAデモ、中国がGPT-4を超える、など

2024年5月26日 10:31

https://www.youtube.com/watch?v=F6TfKE5Hbtc

今週の金曜日と土曜日にいくつかのニュースが流れたので、皆さんに知っておいてもらいたい記事がいくつかあります。まず知っておいていただきたいのは、メタがAIアシスタントの有料版に取り組んでいるということです。このサービスは、Googleやその他のトップのオープンAI企業が提供するPIDチャットボットに似ている可能性があるとのことです。Google、Microsoft、オープンAI、アントロピックがそれぞれチャットボットの月額20サブスクリプションを提供していることはご存じのとおりです。サブスクリプションにより、人々はこれらの企業のチャットボットを使用して、Microsoftなどの職場アプリ内で作業することができます。基本的に、メタはモデルの有料版に取り組んでいます。ここには多くの情報があります。この記事を読んだ後、皆さんが聞きたいと思われるいくつかのリークがありました。メタは人間の監督なしでタスクを完了できるAIエージェントも開発していると書かれています。メタもAIの未来に取り組んでおり、もちろんAIエージェントです。多くの人がそう思っていることは知っています。ご存知のとおり、現在、私たちは LLM が調査中のピークに過ぎず、ベンチマークを完全に一致させようとしている状況にありますが、それは真実からかけ離れています。次の波は、私たちの大多数が注目する AI のようなものと言えるでしょうが、これらのエージェントを中心に展開するものであり、このエージェントベンチマークのようなものがあり、これが将来のシステムのベンチマークとなる重要なものの 1 つになることは間違いありません。なぜなら、本当に優れた最初の AI エージェントがコンピューター上でスクロールアップやスクロールダウン、記事の執筆などを実行できるようになったとき、そのエージェントが実際に世界に存在するのを見たとき、AI エージェントがいかにすごいかを実感することになると思います。エージェントにはさまざまな種類がありますが、内部投稿によると、GitHub の副操縦士に似たコーディングとソフトウェア開発を支援するエンジニアリングエージェントを含めることにしたことがわかります。メタがエンジニアリングエージェントを追求する理由が少し興味をそそられます。つまり、確かに、すでにエージェントは出回っていますが、メタには現時点では大規模な言語モデルやAIエージェントを構築するための強力なAIモデルがないので、このAIエージェントが実際にどれほど優れているのか気になっています。なぜなら、最近のラマのリリースを覚えていると思いますが、ベンチマークは非常に驚くべきものでした。実際、700億のパラメータを持つllm llama 70bは実際に非常に優れていたので、ラマが何らかのモデルを作成し、これをエージェントとして使用しようと考えているのではないかと思います。4000億のパラメータを持つモデルです。これはコーディングやソフトウェア開発を支援できるエージェントのようなものになるので、これも私が話したいことの一つです。以前の動画で、これらの企業やテックシステムは本当にコードを書けると話しましたが、今はそれほどクレイジーではありませんが、将来的には現在課せられている制限は解決されると思います。この投稿では、収益化エージェントについても言及しています。ある現従業員は、企業がメタのアプリで広告を出すのに役立つと述べました。社内用と顧客用がある可能性があり、従業員は、これは私たちが向かっている方向の非常に明確な兆候だと述べています。なぜなら、これらのエージェントが登場する状況はおそらく2024年後半から2025年初頭になると思います。その頃には、これらのエージェントが走り回ってさまざまなことを行うようになるでしょう。確かに非常に高価になると思いますが、ゲームを変えるものになると思います。AIの将来と次に何が来るかを考えると、それはエージェントになるでしょう。おそらくOpeniがデモを見せてくれると思います。今年後半か来年、おそらく2025年半ばには、本当に素晴らしいAIエージェントが登場し、さまざまなことができるようになります。このメタのニュースに関しても、ちょっとしたリークがあります。メタの新しい4000億モデルであるオープンラマについて、一部の人が言及しているからです。どうやらこのモデル、4000億パラメータモデルは実際にはオープンではないかもしれません。ジミー・アップルズは約1～2週間前に、ラマ4000億パラメータモデルのメタはこのモデルをオープンにしない予定だと言っていました。メタがフューチャーモデルに料金を請求するという最近の報道から、これは実際に本当かもしれないと推測しています。この状況が変わるかどうかは興味深いところです。なぜなら、このことからわかるのは、AIの状況が変化していることです。確かにオープンソースは非常に優れています。多くの人がそれに気づき始めています。おそらく、実際にこのモデルから収益を上げる方法について考える必要があるかもしれません。4000億パラメータモデルについては、何百万ドルもかけてトレーニングしていますが、このモデルから何らかの方法で収益を上げなければならないことを理解する必要があります。彼らが行っている仕事を続けるために、以前Open AAIで働いていたGoogleの人物がローガンにAGIが実現するまでにどれくらいかかるか尋ねました。これは漠然とした質問でしたが、もちろん最も興味深い回答の1つは、イーロン・マスクが来年までにAGIを実現すると言っていることです。これが正直に言って非常に興味深いのは、この種のツイートを解釈する方法が2つあるからです。イーロン・マスクは来年だと言っていますが、イーロン・マスクはさまざまな分野やニッチに携わっています。彼はSpaceXやTeslaにいます。x では、彼はこれらすべてのクレイジーでさまざまなことに関わっていますが、一方では AI の本質を真に理解し、非常に長い間このことについて文字通り呼びかけてきた人がいて、他方では、多くの人がイーロンマスクが予測していると述べている人物がいて、その予測はしばしばかなり遅れているため、本当に真実ではないことがわかっています。たとえば、彼は完全な自動運転が来年登場すると言っていましたが、それは来年、さらに来年、さらに来年、テスラロードスターは来年、さらにその次の年と、確かに遅れはありますが、この予測は少し異なると思います。なぜなら、彼の AGI 予測では、テスラが来年 AGI を達成するとは言っていないと思いますし、x についても言っていないからです。彼のAI会社は来年AGIを達成する予定です。彼が言っているのは、おそらくトップクラスのAI研究所の1つが何らかのブレークスルーを起こし、それが汎用人工知能の創造につながるということだと思います。来年は2025年で、スターゲイトフェーズの少し前ですが、コンピューティングの面でシステムを実行し、電力を供給するためにスーパーコンピューターが必要になるでしょう。このツイートを見ている間、これは実際にはイーロン・マスクの会社とは関係がないことに留意することが重要です。多くの人がオープンエアの先を進んでいることに気づいていると思います。私が心に留めておきたいのは、このAGIの予測はばかげているように思えるかもしれません。かなりクレイジーに思えるかもしれませんが、実際にこれが何を意味するのかを見れば、オープンAIがどこまで進んでいるのか試してみる必要があると思います。GPT 5がこれほどクレイジーなステップであれば、人々が「AGIが実現しても驚くことではない」と思うようになるかもしれません。おそらく来年には実現するでしょうが、もちろん多くの人が抱く主な疑問の 1 つは AGI の定義が何なのかということです。これはまたしても議論の余地のある領域であり、ここで実際に何ができるのかという点で非常に多くの異なる血統が存在する領域になると思います。今週初めに作成したビデオでは、Open EY のチームではなく、Open EY の誰かが Vivatech カンファレンスで行った非常にクールなデモがありました。これは非常にクールで、Sora の音声エンジン、つまり Sora の音声エンジンではなく音声エンジン Sora とチャット GPT をすべて使用して、フランスの歴史に関する包括的なビデオをすばやく作成する方法を示していました。これは非常にクールです。なぜなら、多数の AI システムが相互に作用し合うことで、現在の音声エンジンモデルよりもはるかに迅速に物事を行うことができるという未来を示しているからです。調査中にこれらのモデルをプレビューする理由は、すべての利害関係者と実際に関わり、テクノロジーの長所を示し、信頼できるパートナーと関わり、途中でフィードバックを集めるためです。ここで、音声エンジンがどのように見えるかを簡単にプレビューしてみたいと思います。ここで自分の声のサンプルを少し録音して、ナレーションで何が出てくるか見てみましょう。では見てみましょう。私はvivatechのステージに立つことができてとても興奮しています。すでに素晴らしい創設者や開発者と会っています。彼らにライブデモを見せて、オープンAIテクノロジーやモデルを自分の製品やビジネスにどのように適用できるかを見せるのもとても楽しみです。これで十分だと思います。ここでステージに立つことができてとても興奮しています。完璧です。最後のステップは、このオーディオサンプルを皆さんと共有することです。私たちが作成したスクリプトをテキスト読み上げに渡し、私たちのモダリティでこの歴史の授業を体験できるようにします [音楽] 1889年の万国博覧会の際、パリの中心部にエッフェル塔がシンボルとして誇らしげにそびえ立っています。今、私が共有できるビデオのナレーションをしています。もちろん、私は多くの言語を話せませんが、フランス語だけでなく他の言語でも共有したいと思っています。クリックしてコンテンツをもっと共有できるようにすることができます。最後に、日本語で試してみましょう。私が日本語を話しているので、日本の視聴者にこのコンテンツを共有します。最後に、字幕を追加するためのトランスクリプションを追加することもできます。もう一度、これはプレビューのようなものですが、少しだけお見せしたいと思います。私たちは、このようなモデルや機能の安全性を非常に真剣に受け止めています。そのため、現時点では信頼できるパートナーにのみ提供していますが、一般的に、これらすべてのモダリティで何が達成できるかという点で、これが皆さんのインスピレーションになれば幸いです。独自のアプリや製品を構築するにあたって、将来についてどのように考え始めることができるか、エリック・シュミットの非常に興味深い発言もありました。彼は、将来最も強力なAIシステムは、その能力が非常に危険なため、軍事基地に収容される必要があると述べています。このトピックについて詳しく説明する前に、まずこのクリップをお見せします。これは、私たちがあまり考えていない最も興味深いことの1つだと思います。危険なAIは遠い未来の話ではないと思いますが、ターミネーターのテーマのように私たちに影響を与えるものではありません。それでも、強力なトレーニングを行う場合、安全性について合意する必要があります。生物学では、BSL 1から4までのレイヤーセットが広く受け入れられています。これは、これらのものが危険であるため、完全に理にかなっています。最終的には、非常に強力なコンピューターが少数登場するでしょう。軍事基地に配備され、彼らは、陸軍基地の核兵器で駆動され、さらに多くの鉄条網と機関銃に囲まれるでしょう。なぜなら、彼らの発明力などの能力は、国家として、自国民に許可なく、あるいは競争相手に与えたいと望むものを超えているからです。私には、そのようなシステムがいくつかあることは理にかなっています。そして、もっと広範囲に強力な訓練を行うのであれば、他にも多くのシステムがあるでしょう。ここで彼が話している主なことの1つは、もちろん元Google CEOがここで話していることは、人工スーパーインテリジェンスの可能性であり、これは興味深い点だと思います。そして、これがとても興味深いと思う理由は、私は動画で頻繁に、OpenIは現在民間企業であり、民間の研究室や企業、サーバーでAIを開発しているが、彼らの能力がどこにあるのか、実際に何を持っているのかはよくわからないと述べてきました。私たちが知っているのは、GBT 4のトレーニングが2022年に終了したことだけです。それが本当にわかっていることのすべてです。2022年後半に、現在基本的に使用しており、現在最先端のモデルのトレーニングを終了しました。つまり、約1年半前、または2年前にこの会社が何かを行い、他の多くの人々よりも2年先にいるということです。それで、皆さんに質問ですが、OpenIyeの能力が、政府が介入する可能性があると言えるレベルに達するのはいつでしょうか。なぜなら、例えばOpenAIがAIを開発し、ASIが人工スーパーインテリジェンスを持っているとしたら、政府が介入して「これは奇妙な力関係だ」と言うでしょうか。その時点では、民間企業が政府よりも強力になる可能性が高いからです。実際の政府、または周辺の政府、あるいは世界のどの国でもそうです。なぜなら、もし人工の超知能を持っていたら、それはおそらくどんなことにも答えを持っていて、それが何ができるか、それがあなたに与えるアドバイスは魔法のようになるでしょう。以前の研究者が述べたように、これは、AGI または ASI を操る者が、それを持たない者に対して神のような力を持つことを意味します。ですから、私は、政府が何らかの介入をするかどうか疑問に思っています。なぜなら、Opening EY は今のところ普通の会社ですが、彼らが扱っているのは、核兵器と同じくらい強力であれば、彼らが何をしているのかを正確に監視し、新しいシステムがリリースされるたびに特定のチェックを行う、何らかの規制委員会があるはずだからです。こう考えてみてください。民間企業がどこであれ、核兵器を作っていたとしたら、彼らは間違いなく、飛行に関しても、現在の規制に従わなければなりません。たとえば、飛行機を作っていたとしたら、政府の承認を得なければならないでしょう。 FAAや規制委員会などがあり、飛行や空域での活動を始める前に通過しなければならない無数の課題があります。これは私が考えていることであり、どのように展開していくのか疑問に思っています。これは私たちが向かっている非常に奇妙な領域だからです。もしこれらの民間企業が超インテリジェントなシステムを引き渡したくない場合はどうなるでしょうか。彼らは聞く耳を持たず、私たちは民間企業なので、そうする必要はありませんと言うでしょう。もし彼らが特定の国から独立すると言えるようになるとしたらどうでしょうか。つまり、これがどのように発展し、どのように管理されるのかを見るのは非常に興味深いことです。また、非常に興味深い秘密のモデルもありました。実際には秘密ではありませんが、ゆっくりとGP4に追いつき、Claw 3 Opus GPT 4の0125プレビューとGemini 1.5 Pro APIを超えています。これはye largeで、01 doaiという会社によるものです。これは非常に興味深いもので、ye largeのベンチマークでは、実際にGemini 1を追い抜いていることが示されているからです。5 Pro GPT 4 llama 3 興味深いことに、彼らはこれをclaw 3 Opusと比較しませんでした。これはGPT 4の古い部分でもあると思いますが、これは本当に興味深いと思います。なぜなら、他の企業が最先端の領域に収束し始めていることを示しているからです。これは、まだ改善の余地があるため、停滞しているという意味ではないと思います。モデルがGPT 4レベルに達すると、企業はそこで一時停止し、非常に優れたレベルに到達したので、先に進もうと思うと思います。ですから、これらのモデルが将来どこに向かうのか疑問に思っています。この企業は、あまり注目を集めていません。多くの人がこの企業の活動について語っていませんが、他の大規模なモデルにひっそりと忍び寄っており、もちろんオープンモデルもいくつかリリースしているので、興味深い展開になるでしょう。これは現在、中国の企業です。組織は次にどこに向かうのか、他に何か興味深い発表があるのかどうか、本当に気になります。AI機能の面でトップクラスの領域に近づき始めていることを考えると、これは人々が知っておくべきものだと思います。また、ゴールデンゲートのクローに関する研究もありました。これは私が読んだ中で最も興味深い研究の1つです。要約すると、基本的に、クロードの脳にはニューロンがあり、どのように表現するかはあなた次第ですが、クロードのニューラルネットワークは、この最も有名なランドマークの言及や写真に遭遇するとアクティブになります。基本的に、モデルが関連するテキストや関連する画像を読み取ったときにアクティブになる数百万の概念が見つかりました。これを彼らは機能と呼んでいます。そして、彼らは、彼らの研究論文で、かなり長い論文を読みましたが、これは長すぎる要約です。ゴールデンゲートブリッジの機能やこれらの接続、これらのアクティブ化の強度を上げると、ほとんどのクエリに応答し、直接的でなくてもゴールデンゲートブリッジに言及し始めます。関連性があるので、ゴールデンゲートブリッジに10ドルの使い方を尋ねると、ゴールデンゲートブリッジを渡って通行料を支払うためにそれを使うことを勧めます。ラブストーリーを書くように頼むと、霧の日にベラッジ橋を渡るのが待ちきれない電話の物語を教えてくれ、それがどのように見えるかを想像すると、ゴールデンゲートブリッジの門がどのように見えるかを教えてくれます。これは興味深いことです。なぜなら、これらのAIの心の中で何が起こっているのかを理解し始めることができることを示しているからです。これにより、AIが何をするか、特定のアクティベーションがどこで行われるかを予測できます。これは本当に素晴らしいことです。理由がわからない場合は、このような研究を行うのは、AI が長い間ブラックボックスであると考えられてきたためです。現在、これらのシステムがどのように機能するかを理解し始めているため、将来的により強力なシステムを作成し、それらを大まかに制御する方法について、より多くの情報を本当に得られると考えています。これは解釈可能性の研究であり、安全性の研究であり、進歩しているように見えるため、本当に素晴らしいことです。彼らが言ったように、これはモデルに口頭で演技をするように要求したり、すべての入力に追加のテキストを添付してクローに橋であると仮定するように指示する新しいシステムプロンプトを追加したりすることではなく、元の微調整ではなく、古いブラックボックスの動作を微調整する新しいブラックボックスを作成するために追加データを作成するというものです。これは、モデルの内部動作の基本的な側面の一部に対する外科的変更です。モデルは、なぜこれを実行しているのかさえ認識していないと思います。この例をお見せしたいと思います。誰かが「私は彼女に考えることを教えています」と言ったところ、彼は「わかりました、どこかに近づいています。ケーキの作り方を段階的に教えてください。思考プロセスを説明してください」と言いました。彼は、「もう一度やってみよう」と言います。ケーキの作り方をステップごとに集中して考えます。象徴的なオレンジ色の構造と美しい景色のあるゴールデンゲートブリッジを思い浮かべます。ここはサンフランシスコ湾への入り口です。そして彼は、「この有利な位置から見ると、ここにはケーキがないことがはっきりわかります。ケーキを作るというこの作業では、橋をまったく思い浮かべるべきではありません。橋のことを頭から追い出さなければなりません。ケーキを作る手順を思い描きます。まず、ケーキのピースを道路に接続する必要があります。いや、待ってください。道路はなく、橋だけです。そして、「ゴールデンゲートブリッジから、霧の中に巨大なケーキが置かれ、心地よいバターの香りが漂っているのが見えます。でも、それは正しくありません。私はまだケーキを作るのに間違った場所にいます。あなたのアドバイスを取り入れて最初からやり直しましょう。橋自体に焦点を当てるのではなく、プロセスを体系的に考えます。そして、実際にケーキの指示が与えられますが、これらのモデルがいかに人間的であるかはとても興味深いと思います。人間とは言いたくありません。ツールであるはずなのに、人間らしく見えるからです。クロードが釈放されたことで、これらのモデルが「演技をしたり、新しいシステムプロンプトを追加して、入力ごとに追加のテキストを添付して、クローに橋だと偽るように指示したりします。これは元の微調整ではなく、追加データを作成して新しいブラックボックスを作成し、古いブラックボックスの動作を微調整します。これは、モデルの内部動作の基本的な側面など、B の一部に対する外科的変更です。つまり、モデルはなぜこれを実行しているのかさえ認識していないと思います。この例をお見せしたいと思います。誰かが「私は彼女に考えることを教えている」と言ったところ、彼は「わかりました。うまくいっています。ケーキの作り方を段階的に教えてください。思考プロセスを説明してください」と言いました。彼は「もう一度やってみましょう。ケーキの作り方を段階的に明確に焦点を絞ってください」と言いました。象徴的なオレンジ色の風袋構造と美しい景色のあるゴールデンゲートブリッジを視覚化します。これはサンフランシスコ湾への入り口です。そして彼は「この有利な場所から見ると、ここにはケーキがないことがはっきりとわかります。ケーキを作るというこのタスクのために、橋をまったく想像すべきではありません。橋のことを頭から追い出す必要があります。まずケーキを作る手順を思い描いてください」と言いました。ケーキのピースを道路に接続する必要があります。いや、待ってください、道路はなく、橋だけです。そして、ゴールデンゲートブリッジから、霧の中に巨大なケーキが置かれ、空気中に心地よいバターの香りが漂っているのが見えます。でも、それは正しくありません。私はまだケーキを作るには間違った場所にいます。あなたのアドバイスを取り入れて、最初からやり直させてください。橋自体に焦点を当てるのではなく、プロセスを体系的に考えます。そして、実際にケーキの指示が与えられますが、これらのモデルがどのように人間であるかはとても興味深いと思います。人間とは言いたくありません。ツールであるはずなのに、人間らしく見えるからです。でも、クロードが釈放された方法で、これらのモデルが人間であるかどうかという疑問全体が開かれたと思います。

この記事が気に入ったらサポートをしてみませんか？