見出し画像

AIに関する重大ニュース: OpenAIがGPT-5を米国政府に提供、驚異的な新型ヒューマノイドロボット、Metaの新モデル...

この数日間で起こった驚くべき出来事について、皆さんが見逃した可能性が高い5つの重要なストーリーを紹介します。AIの分野で非常に重要な意味を持つものばかりです。
まず最初に目にしたのは、フィギュアのCEOであるブレット・アドコックの発言です。彼は最近こう述べました。「数十億の知的ヒューマノイドロボットを大規模に展開する機会の窓が開いたのは最近のことです。5年前にはこれは実現不可能でした。2024年、つまり歴史上初めてこれが可能になった年に私たちがいられることは非常に幸運です」
彼が言及しているのはフィギュア製品についてです。それでは、彼らの説明を聞いてみましょう。そして、なぜこれが驚異的なのかをお話しします。
[音楽]
このロボットについて話したいことがいくつかあります。なぜなら、多くの人が気づいていないこのロボットの特徴の1つは、実際に電気的にアップグレードされているということです。最近の業界のトレンドとして、ヒューマノイドロボットがますます電気駆動システムを採用し、従来の油圧や空気圧システムから移行していることが挙げられます。この変化は、ヒューマノイドロボットの開発と展開において電気モーターをより有利にする複数の重要な要因によって推進されています。
よく見ると、ここに「電気式ヒューマノイド」と書かれているのがわかります。これは電気式ヒューマノイド分野への参入を示しており、非常に興味深いことです。ボストン・ダイナミクスも最近、新しいロボットを発表しましたが、そのビデオでは電気式ヒューマノイドが示されていました。これは明らかに業界全体のトレンドです。
また、ここで興味深かったのは、握力領域が増加した、より高度な手が見られたことです。これはテスラのオプティマスロボットから得られた触覚センシングのようでした。これは私が本当に気に入った点です。前のボットの流動性は素晴らしかったですが、これも同様に印象的に見えます。
電気システムは、油圧システムよりもコストが低く、メンテナンスが容易な傾向があります。油圧システムの問題は、複雑で漏れが起きやすく、定期的なメンテナンスが必要なことです。これは高価で時間がかかります。対照的に、電気式ヒューマノイドはよりクリーンで単純であり、一般的にメンテナンス要件が低いです。これにより、産業環境から家庭環境まで、さまざまな用途での広範な使用により実用的になります。
また、考慮しなければならないのは、騒音と環境への影響です。これらのロボットが家庭環境や職場環境で使用されることを想定すると、騒音低減の影響は非常に重要になります。
このロボットは、私がこのビデオをリリースする時期によっては、4〜5日後にリリースされる予定です。このビデオは私が録画した直後にリリースされるはずですが、創設者のブレット・アドコックのコメントを見ると、これが注目すべき技術的成果になる可能性が非常に高いことがわかります。
私がこれを非常に素晴らしいと思う理由は、ボストン・ダイナミクスのロボットを振り返ってみると、彼らの最新の電気式ヒューマノイドの様子が見られるからです。立ち上がる能力や、環境内を移動し、ナビゲートする能力の面で非常に柔軟性があるように見えます。
これは非常に興味深い未来の技術になるでしょう。なぜなら、ボストン・ダイナミクスが現在開発中の最新のアトラスロボットとどのように比較されるのか気になるからです。これは以前のシステムの後継機で、多くの人に愛されていました。人間らしさの面で驚くべきもので、そのロボットの柔軟性と敏捷性の点で驚くべきレベルのことができました。
彼が述べた重要なポイントの1つは、これが1年以上かけて設計されたということです。フィギュア2は地球上で最も高度なヒューマノイドロボットです。この会社について正直に言うと、ヒューマノイドロボット分野を見てきた者として、ブレット・アドコックほど短期間で急速な進歩を遂げた会社を見たことがありません。
この分野の他の企業を見てみると、彼らに対して悪く言うつもりはありませんが、次世代のヒューマノイドロボットを開発するのに、このような驚くべきスピードで成功したことを本当に理解し、認識する必要があります。このロボットは、AIシステムが驚異的なアップグレードを受けたときに備えて設計されているだけでなく、1年以上かけて設計され、すでに2台目のロボットデモを発表しており、業界を定義するものになりそうです。これは、決意を持った起業家の手に会社がある場合に何ができるかを示す真に驚くべきことです。
わずか4ヶ月前に、音声から音声への更新機能を持つこのロボットを発表しました。これは人々を驚かせました。なぜなら、現在のシステム、現在のアーキテクチャ、現在のハードウェアで、現在作成できるものの種類を本当に理解したからです。これは本当に良いことだと思います。なぜなら、人々は常に、この技術分野全体が減速していると言い、幻滅の谷を通過しているなどと言いますが、実際に何が起こっているかに注目すれば、ここでの技術がますます能力を高めていることがわかるからです。
正直に言って、ヒューマノイド分野全体を見ると、このロボットは非常に敏捷で柔軟性があり、話すことができる最初のロボットの1つであることは驚きでした。これらすべてが驚きでした。もし彼らがこれよりもさらに優れたものを作ることができれば、私は本当に感銘を受け、驚くでしょう。
Metaが再び別のオープンソースモデルをリリースしました。これは非常に素晴らしいことです。彼らはMeta Segment Anything Model 2、略してSAMを導入しています。これは、任意のビデオや画像内の任意の正確な選択をセグメント化するのに非常に効果的なモデルです。これは本当にクレイジーです。なぜなら、多くの異なる使用例があるからです。さまざまなものに使用できますが、SAM 1とそのソフトウェアで人々ができたことを思い出せば、これは本当に画期的なものになると思います。
ここで見られるように、SAM 2を使用すると、ビデオフレーム内の1つまたは複数のオブジェクトを選択できます。ここでブーツが選択されているのがわかり、異なるオブジェクトが見えます。もちろん、SAM 2は、モデルのトレーニング中に以前見たことのないオブジェクト、画像、ビデオに対して強力なゼロショットパフォーマンスが可能で、幅広い実世界のアプリケーションでの使用を可能にします。
SAMについての最も驚くべきことの1つは、リアルタイムの対話性と結果があることです。SAM 2は、効率的なビデオ処理のために設計されており、ストリーミング推論によってリアルタイムの対話型アプリケーションを可能にします。リアルタイムでものを追跡できることを想像してみてください。これは可能性を開くものになるでしょう。特定のオブジェクトがどこにあるかをリアルタイムで追跡できます。拡張現実で使用したり、さまざまな多くのことに使用できます。
もちろん、自分でデモを試すこともできます。例えば、ここでエフェクトを作成できます。「試す」ボタンをクリックして、「承認」をクリックすると、デモが読み込まれます。ここで、このビデオ内の何でも追跡できます。例えば、ボールを追跡したい場合は、ここでボールをクリックするだけです。「オブジェクトを追跡」をクリックすると、ビデオの残りの部分で、そのオブジェクトがどこにあるかを正確に追跡します。
AIシステムがこれを行えるのは本当にクレイジーです。文字通り誰かの足をここで追跡できるのは...奇妙です。確かに奇妙ですが、この種の技術は創造的な人々によって使用され、本当に天才的なことをするのに使われると思います。
ここで興味深いのは、OpenAIが次のモデルであるGPT-5への早期アクセスを米国AIセーフティ研究所に提供することを約束したことです。OpenAIのCEOであるサム・アルトマンは、OpenAIが米国AIセーフティ研究所(AIプラットフォームのリスクを評価し対処することを目的とする連邦政府機関)と協力して、次の主要な生成AIモデルへの早期アクセスを安全性テストのために提供する合意に取り組んでいると述べています。
これがなぜそれほど大きなニュースなのかがわからない人のために説明すると、次のフロンティアモデルは、推論能力と事実に基づく回答を生成する能力の面でよりはるかに高度なモデルになると予想されているからです。これは、サム・アルトマンを含む多くの人々が、公開リリース前にこれらのモデルを徹底的にテストする必要があると常に言ってきたことです。これは、これらのAIシステムの安全性と信頼性を正確に確認するために、外部の政府機関と協力する初めての機会になりそうです。
これは興味深い動きです。なぜなら、OpenAIは最近、彼らの部門の多くの人々が...もちろんすべての人ではありませんが、いくつかの著名な人物が安全性の懸念を理由にOpenAIを去り、基本的に「AIリサーチをするのに十分な計算能力がここにはない」と述べ、「意味のある研究をしたいなら、anthropicのような他の場所に行かなければならない」と述べているからです。
5月にOpenAIは、超知能AIシステムが暴走するのを防ぐコントロールを開発する問題に取り組んでいたユニットを事実上解散させました。これは純粋な推測ですが、OpenAIは本当に彼らに最も能力の高いモデルを与えるのでしょうか?OpenAIは製品会社であり、つまり彼らがここでやりたいことは、お金を稼ぐことです。そしてたくさんのお金を稼ぐことです。
もちろん、彼らがしたくないのは、モデルを米国政府に提供し、そして米国政府が「これはリリースできないかもしれない」と言うような状況に自分たちを置くことです。それはOpenAIが製品をリリースできないことを意味します。anthropic、Google、Metaのような企業が追いついてきています。現在、私はOpenAIのGPT-4oがモデルリーダーではないと主張します。Claude Sonnet 3.5のような非常に効果的なモデルがあるからです。
他の企業がAIレースで彼らを追い抜いた場合、OpenAIが本当にこれを守るのか疑問に思います。Googleは次のモデルに本当に懸命に取り組んでおり、一部の噂では基本的にGPT-5よりも優れていると言われています。それが本当かどうか、私たちは見ることになるでしょう。
GPT-4oの高度なモードからいくつかの素晴らしいデモがありました。これは実際に私の心を吹き飛ばしました。基本的にChatGPT高度な音声モードで、できるだけ速く10まで数えるように、そして50まで数えるように頼みました。
「1から10まで本当に速く、できるだけ速く数えてください」
「1、2、3、4、5、6、7、8、9、10」
「はい、今度はもっと速く」
「1、2、7、9」
「今度はもっと大きな声で速く、50まで数えてください」
「1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50」
これは少し不気味です。途中で息を吸って一時停止したのは。考えてみれば、これはロボットです。息を吸う必要はありません。人間ではないのです。人間がすることを真似ているだけです。これは非常に奇妙です。私たちが目にしている技術を言葉で表現することさえできません。これがまだ初期段階だとしたら、AIが特定の技術や現在の技術との相互作用をどれほどクレイジーにするか想像もできません。
正直なところ、このようなことは、人間らしくて本当に人間のようなAIシステムとどのように相互作用するのか、技術の世界が将来どのようになるのか不思議に思わせます。誰かが電話で私に50まで数えるように言って、それをしたら、私個人的にはそれがAIだとは判断できないでしょう。
OpenAIに関するさらなるニュースですが、残念ながらOpenAIからのリリースではありませんが、GPT-4oの長い出力について話しています。OpenAIは、1リクエストあたり最大64,000出力トークンを持つGPT-4oの実験版を提供しており、この実験がより長い完了によってロック解除される新しいユースケースを探索するのに役立つことを期待しています。アルファ参加者は、GPT-4-0-64k-output-alphaモデル名を使用してGPT-4長出力にアクセスできます。ここに価格が表示されています。
これはかなり小さな発表なので、ほとんどの人が見逃しましたが、これがどのように機能するかを見るのは非常に興味深いです。GPT-4oについて話されていたことの1つは、純粋なテキストの完了を生成する能力でした。これが単に最初から完全なエッセイや本全体を生成できるのかどうか疑問に思います。もちろん、64トークン以上ですが、この一貫性が、この分野に存在する他のモデルとどのように比較されるのか気になります。
ほとんどの人がこれを見逃し、私もほとんど見逃すところでした。発表があまり注目されなかったからです。しかし、これを見て、絶対に取り上げなければならないと思いました。なぜなら、これは信じられないほど素晴らしいからです。これはflux.one、新しい創造の時代です。基本的に、これは信じられないほどリアルな新しいオープンソースの画像生成ソフトウェアです。
このような画像を見ると、もちろんバッジを見るまでは本当にリアルに見えます。そしてAIで生成されたのかもしれないと思います。しかし、数年前ならば誰の心も吹き飛ばしていたでしょう。それでも、私たちが目にしているリアリズムの種類はここにあると思います。
最近生成された画像をお見せしますが、皆さんは「wow、これは信じられない」と言うでしょう。これは彼らのページにあった画像で、これはAI生成画像です。もう少しお見せしますが、iPhoneスタイルの画像、文字通り誰かがスマートフォンで撮影したように見える画像を見始めると、これらの画像が、おそらくオンラインで見たものを人々が実際に信じるかどうかの信頼レベルに関して最も問題を引き起こす可能性がある種類の画像だと思います。
もし私がこの画像をTwitterで見かけたら、これがAI生成だという即座の警告はまったくないでしょう。この画像を見て、これはすぐにリアルに見えると思うでしょう。しかし、あなたがまさに見ようとしているのは、このモデルが完全に新しい写真のようなリアルな画像を生成できるということです。それもiPhoneだけで。
ここに見えるのは、flux.one proで作られたAI写真です。2015年頃の退屈なSnapchat写真。もし私が誰かの古いInstagramでこの画像を見たら、AIで生成されたとは思わないでしょう。明らかな兆候はここにはありません。本当に明らかな兆候はありません。背景の車が家とマージしているように見えるかもしれません。だから、もし顕微鏡で各画像を分析しているなら、見えるかもしれません。しかし、それでも、ソーシャルメディアのほとんどの人は画像を2秒ほど見るだけで、その2秒の間に自分に exactlyその画像に何があるのかを伝えなければなりません。「ああ、ただ家の近くに立っている女の子だ」と思うだけで、「待って、これはAIで生成されたのか」などとは考えません。
このような画像とこの種のソフトウェアは、おそらくデッドインターネット理論にさらなる信憑性をもたらすでしょう。この画像を見てみると、この画像はまったくAI生成には見えません。もちろん、テキストを読めば、AIで生成されたことがわかります。そしてもちろん、この画像を見ると、これはおそらく最も衝撃的なものの1つです。なぜなら、前に言ったように、この写真を見ても、これがAI生成だという明らかな兆候はないからです。
時間が経つにつれて、Tシャツのパターンなどのようなものを見つけるかもしれません。しかし、常にモデルにプレーンなTシャツをプロンプトで指示することができます。例えば、ただアップルのロゴが入っているだけのTシャツなら、それでも正しく生成するでしょう。だから、誰かのTシャツにテキストが入っていなければ、AIで生成されたと言えるかもしれません。わかりません。私たちは非常に奇妙な領域に入りつつあります。
flux 1.1についてどう思いますか?これは良いことだと思いますか、それとも誤情報に対して悪いことだと思いますか?しかし、これは本当に危険な種類の写真のリアリズムだと思います。

この記事が気に入ったらサポートをしてみませんか?