MetaがオープンソースのAIモデル「LLaMA 3」を公開し、GPT-4やClaude 3に匹敵する性能を示しています。さらに、Microsoftの「VASA-1」は、1枚の写真から人間の表情を模倣するリアルタイムのAIアバターを生成できます。これらの技術により、近い将来、人間とAIが映画「her」のように対話できる世界が実現するかもしれません。一方、AI看護師が人間の看護師を上回る性能を示しているなど、AIの社会実装も進んでいます。VASA-1の開発者は、この技術が医療分野でのコミュニケーションを豊かにすると述べています。OpenAIのサム・アルトマンCEOは、AIの知性よりも、ユーザーに合わせたパーソナライズが重要になると示唆しています。OpenAIはユーザーデータを活用し、個人に最適化されたAIを提供することで、GoogleのAI開発競争に対抗しようとしているのかもしれません。AIの知性が人間のレベルに到達するタイミングについては、専門家の間で意見が分かれています。MistralのアーサーメンシュはAGI(汎用人工知能)の実現を疑問視する一方、Anthropicのダリオアマデイは2025年から2028年にAIが自律性を獲得すると予測しています。映画「her」の世界は、技術的には来年にも実現可能かもしれません。
公開日:2024年4月19日
※動画を再生してから読むのがオススメです。
動画の編集を終えたところで、MetaがLLaMA 3をリリースしました。
しかし、その点についてのフルビデオを作る代わりに、TLDRをお伝えします。
Metaは、彼らの最大かつ最高のモデルをリリースしておらず、研究論文は後日公開される予定です。
ただし、今夜は競争力のある2つの小さなモデルをリリースしました。それらは、他のクラスのモデルと言っても過言ではありません。
LLaMA 370Bは、Gemini Pro 1.5やClaude 3 Sonnetと競争力がありますが、それらのコンテキストウィンドウサイズは含まれていません。
今夜リリースされたLLaMA 370BとMistral Medium、Claude Sonnet、GPT-3.5の間での人間による評価比較がここにあります。
Metaが見つけたのは、元のLLaMA論文でも初期の兆候が見られたものですが、モデルの性能が2桁以上のデータでトレーニングされた後も改善し続けるということです。それは、チンチラの最適な量よりもはるかに多くのデータです。
基本的に、彼らはモデルに質の高いデータを飽和させ、コーディングデータに特別な重点を置いています。
彼らは、新しい機能を備えた複数のモデルをリリースする予定であり、その中には多様性、複数言語での会話、より長いコンテキストウィンドウ、そして全体的に強力な機能が含まれています。
メインのビデオに移る前に、おそらく皆さんが気になっているクイック比較をお見せします。
まだトレーニング中の謎のモデルと、新しいGPT-4 TurboとClaude 3 Opusを比較します。
悪名高いMMLUに関しては、すべてのモデルでほぼ同じ性能です。
Googleの証明された卒業生STEMアセスメントに関しては、Claude 3がわずかにリードしているものの、性能はほぼ同じです。
コーディングのベンチマーク人間評価に関しては、それが深刻な問題のあるベンチマークであるにもかかわらず、GPT-4はまだリードしているようです。
数学に関しては、驚くべきことに、多くの人がGPT-4がこの新しいLLaMA 3モデルを圧倒していると言うでしょう。
彼らが論文を提出していないにもかかわらず、今夜リリースされた2つの小さなモデルは、そのサイズの他のモデルと非常に競争力があり、この謎のモデルはGPT-4とClaude 3 Opusのクラスになるでしょう。
LLaMA 3から進んでいかなければならないのは、過去48時間で、さらに興味深い発表があったと思うからです。
あなたの写真1枚だけで、今では何でも言わせることができます。
もしかしたら、人生を変えたいと思っている場所にいるかもしれませんが、あなたの魂の奥深くに、あなたが決断しなければならないことがあるということを知っていることがありますね。
多くの人々が考えていたよりも、AIを使用して人間の文章、声、芸術作品、音楽を模倣することははるかに簡単であることが証明されていますが、今では私たちの表情さえも模倣することができます。
ちなみに、OpenAIのSoraとは違い、リアルタイムで。
しかし、これは一体何を意味するのでしょうか?
まず、今年後半に登場する次世代のモデルとリアルタイムでズーム通話ができることはほぼ確実だと思います。
それは何十億人もの人々がAIとどのようにやり取りするかを変えると思います。
それらのモデルがどれだけ知的であり、どれだけ早く登場するかは、今週の注目すべき新しい議論の対象となっています。
もちろん、私はそれを取り上げます。新しい威厳あるアトラスロボットに関する論争、AI看護師が実際の看護師を凌駕することなど、さらに多くのことを。
MicrosoftのVASA-1論文が過去48時間で発表され、私はその論文を丸ごと読んで、最も関連性のあるハイライトだけをお伝えします。
では、今年は比較的リアルなディープフェイクの論文やデモがあったにも関わらず、なぜVasaを選んだのでしょうか?
まあ、それはすべて表情、まばたき、唇や眉の表現力についてです。
驚かされます。
昨夜、誰かにそれを試しました。
それは魅力的でした。
彼女は腕の肩の痛みを訴えていたんですよ。
この解像度のモデルではこれほど優れたものはありません。
私は、このようなものを初めて見た場合、準備なしに公開された一般の人々のかなりの部分が、これらが本物だと信じる可能性があると思います。
アバターが伝える感情だけでなく、カメラからの距離や視線の方向も制御することができます。
私たち読者は、彼を軽蔑以外の何者として見るべきではないと言えますね、特に彼が娘を扱う態度に関しては、わかりますか?
もちろん、彼はモリスをはっきりと見抜くことができます。
VASA-1モデルは実際のビデオでのみ訓練されていましたが、後で説明しますが、このようなことができます。
作成者たちは、彼らの論文の最初のページでこれを述べています。
これにより、人間の会話行動を模倣するリアルなアバターとのリアルタイムの関与が可能になります。
現時点では、解像度はほぼHDで、1秒あたり40フレームです。
彼らはまた、重要なこととして、無視できる起動動作についても言及しています。
VASA-1モデルは、軽蔑的な態度でのみ使用されることを意図していません。
現時点では、解像度はほぼHDで、1秒あたり40フレームです。
彼らはまた、重要なこととして、無視できる起動遅延についても言及しています。
私がデモンストレーションを試みてみましょう。
再度、必要なのはどこからでもの画像とオーディオクリップだけです。AI生成されたものであっても、そうでなくても。
あなたは私が決めたことを知っていますか?
私は集中することに決めました。
著者たちは、この技術が人間同士の対話の豊かさを増幅させるだろうと野心的に述べています。
私は、彼らが医療分野での社会的な対話について話している段落の最後により同意します。
数週間前、私たちはヒポクラティックAIとNVIDIAが提携して、1時間9ドル未満のAI看護師をリリースすることを知りました。
パフォーマンスメトリクスをお見せしますが、こちらはお試しです。
こちらはメモリアル病院からのリンダです。録音された通話です。
アルバート・ウーさんですか?
はい、そうです。
素晴らしい。
私は、あなたの心臓専門医であるブラウン博士の代理で電話しています。
プライバシーを保護するために、あなたの生年月日を教えていただけますか?
1月1日です。
彼女は私を殺そうとしているわけではないですよね?
何年も彼女をからかってきた後、彼女がついに私に仕返ししようとしていると思ったんです。
安心してください、あなたの妻はあなたを狙っているわけではありません。
そして、あなたのListenOprilとの負の相互作用を心配する必要はありません。
最新の検査結果によると、あなたのカリウムレベルは正常範囲内であり、その範囲は3.5から5です。
そして、人間の看護師による評価によると、これらのAI看護師は、ビデオアバターがなくても、患者への対応や教育面で優れていました。
技術的なレベルでは、彼らは薬物の影響を実験値に識別すること、市販の薬物の使用を特定することで優れており、有毒な投与量を検出することで大きく優れていました。
次の看護師の予約がこんな感じだと想像してみてください。
まず最初に、あなたと始めたいと思います。なぜなら、広告業界でスタートし、今はウェルネスビジネスを運営していると読んだからです。
これらの原則は、ユーザーの旅をより楽しくするだけでなく、ビジネスの指標も向上させます。
ユーザーは中断されることを嫌い、壊れた体験を嫌います。
これらの原則をアプリデザインに念頭に置くことで、より良いユーザージャーニーが実現します。
彼らの方法論について簡単に触れてみましょう。
彼らが異なる点は、すべての可能な顔のダイナミクス、唇の動き、非唇の表現、視線と瞬きを潜在空間にマッピングしたことです。
それを、実際の3Dの複雑な顔の動きのコンピューター効率的で簡略化された機械表現と考えてください。
以前の方法は、唇に焦点を当て、より硬直した表現が多かった。
著者たちはまた、それが拡散トランスフォーマーモデルであることを明らかにしました。
音声を顔の表情や頭の動きにマッピングするために、彼らはTransformerアーキテクチャを使用しました。
モデルは実際には、オーディオクリップを取り、適切な頭部の動きや表情、あるいはそれらを表す潜在変数を生成します。
その後、その顔の動きや頭の動きのコードを使用して、彼らの手法がビデオフレームを生成します。
もちろん、入力画像から抽出された外観と身元の特徴も取り込まれます。
論文の中で非常に深いところで、VASA-1を訓練するのにどれだけ少ないデータが必要かに驚かれるかもしれません。
彼らは公開されているVox Celeb 2データセットを使用しました。
調べてみたところ、それは大規模なデータセットと呼んでいますが、実際はたったの2000時間です。
参考までに、YouTubeは20億時間の動画があります。
そして、リークによると、OpenAIは100万時間のYouTubeデータで訓練したことがわかっています。
このデータセットがキュレーションされているとはわかっていますが、この少ないデータでどのような結果が得られるかという点は変わりません。
おそらく、彼らは3500人の被験者を使用して自分たちの小さなデータセットを補完することも言及していました。
しかし、データの規模は本当に非常に小さいままです。
しかし、ここには、彼らの方法を実際のビデオや以前の方法と比較した15秒の見出しがあります。
リップシンクの精度は前代未聞であり、オーディオへの同期は最先端技術です。
ビデオの品質は向上していますが、もちろん現実からはまだ遠いです。
彼らは髪や服のより良い模倣と、全身に拡張する作業をしていると言っています。
かなり明らかな理由から、MicrosoftはVASA-1をリリースする予定はなく、「技術が適切な規制に従って責任を持って使用されることが確実である」と述べています。
少なくとも、技術が責任を持って使用され、適切な規制に従っていることが確実であるまで、オンラインデモ、API、製品、または関連する提供物をリリースする予定はありません。
それがどのようにして確実であるかは、私にはちょっとわかりません。
おそらく、近い将来、VASA-1に相当するものがダークウェブでオープンソースとして公開されるでしょう。
もちろん、彼女のリアリティのレベルに到達するには、私たち自身の感情を分析するためのAIも必要です。
でも、それにまっすぐ取り組んでいる企業があることに驚かれることはないでしょう、Hume AIという会社がそうです。
私は会話を始めて、AIに私の声の中の感情を分析させるつもりです。
面白いはずです。
今夜は、実際にSignal to Noiseという新しいニュースレターを発表します。リンクは説明に記載されています。
かなりワクワクしています。
決意と落ち着き?
私はそんなに落ち着いているとは思いません。
集中力?
それをお受け取りいたします。
そして、それはHume AIをテストするためだけではなく、本当の発表です。
私はこのプロジェクトに数ヶ月取り組んできましたが、見た目や音の出方に本当に誇りを持っています。
登録は無料で、その名前のインスピレーションはこれにあります。
Youtubeでご覧の皆さんはご存知のように、周りにはたくさんのノイズがありますが、信号はそれほど多くありません。
そして、このチャンネルでは、信号対ノイズ比を高く保つよう努めています。
実際に自分自身が興味を持ったことがあるときだけ、このチャンネルで動画を作成しています。
そして、このニュースレターも同じです。
実際には、何か面白いことがあったときだけ、投稿をするつもりです。
さらに、すべての投稿に「すべてを変えるかどうか」のダイス評価を付けます。
その業界全体が実際に驚いているかどうかを分析する私なりの風変わりな方法です。
スパムは一切ありません。質の高い文章は、少なくとも私の意見では、一目でわかるすべてを変える評価があります。
各投稿は3、4分の読み物のようで、その哲学は私がワクワクするニュースレターを作りたかったということでした。
チャンネルとニュースレターのハイプフリーなエシックスを本当にサポートしたい人だけのために、インサイダーエッセンシャルズティアがあります。
独占的な投稿、サンプルのインサイダービデオ、そして実験的なスマートGPT 2.0へのアクセスが得られます。
参加する義務はまったくありません。
無料のニュースレターにサインアップしていただけるだけでも、私は大喜びです。
無料で購読するかエッセンシャルズで購読するかにかかわらず、スパムボックスをチェックしてください。時々、歓迎メッセージがそこに入ってしまうことがあります。
いつものように、私の追加のビデオコンテンツやプロのネットワーキング、コツの共有をすべてご覧いただきたい場合は、PatreonのAIインサイダーズにサインアップしてください。
少なくとも今のところ、新しいメンバーを個別に歓迎することができています。
しかし、ディープフェイクが進化する一方で、ロボットの機敏さも進化しています。
こちらがBoston Dynamicsの新しいアトラスです。
最も有名なロボットのもう1つは、最近のビデオで話したFigure 01です。
そして、たった2時間前に、Figure 01を製造している会社のCEOがこう言いました。
Boston Dynamicsの新しいアトラスについて話すと、最後にコピーされることはないでしょう。
まだ明らかでないかもしれませんが、Figureは世界で最高のロボティクスのための機械設計を行っています。
そして、彼は新しいアトラスのウエストデザインを参照していました。
そのコメントがPRや姿勢についてのものかどうかは、時間が経てばわかるでしょう。
しかし、完全にAIの社会的相互作用や彼女の話題から離れる前に、こちらが2日前のサム・アルトマンです。
彼は、AIの個人化が彼らの固有の知能よりもさらに重要かもしれないと提案しています。
物質のある種の新興性質のような知性だけがそうなのかもしれません。
長期的な差別化は、あなたに最も適したモデルであり、あなたの人生全体の文脈を持ち、他のすべてのやりたいことに組み込まれ、あなたの生活に完全に統合されているものになるでしょう。
しかし、現時点では、曲線が非常に急であるため、私たちが焦点を合わせるべき正しいことは、基本モデルをますます良くしていくことだけです。
私はOpenAIの意図的な戦略の一部なのかと思い始めます。
私の最近のスターゲートビデオでは、Microsoftが1000億ドルを費やしていることについて話しました。
しかし、今週、ハサビスはGoogleがそのより多くをコンピュートに費やすと述べました。
Googleがモデルのパワーで一気に逃げ出し始めるということが真実であれば、それはOpenAIが競争する方法の一つかもしれません。
より多くのユーザーからデータを取得し、そのAIをあなたに合わせて個人化し、おそらくビデオアバターで提供する。
そして忘れないでください、GPTストアでこれについて非常に早いヒントを得ました。
OpenAIは現在、ユーザーエンゲージメントに基づいて米国のビルダーに支払いを行っています。
現時点では、そのユーザーエンゲージメントは明らかに非常に低いようです。
しかし、リアルなビデオアバターを投入すれば、それはかなり速く変わるかもしれません。
もちろん、それらのモデルが平均的な人間ほど賢くなったときに、多くの人にとって本当に中毒性のあるものになるでしょう。
もちろん、いくつかの最先端モデルのクリエイターを含む、それが決して起こらないと言う人々もいます。
こちらが、Mistralの共同創設者であるアーサー・メンシュです。
全体的なAGIの論調、人工一般知能、は神を創造することについてです。
私は神を信じていません。
私は強い無神論者なので、AGIを信じていません。
私は個人的にその関連性については確信が持てませんが、それは興味深い引用です。
そして、有名な大規模言語モデルの懐疑論者であるヤン・ル・クーンがいます。
彼は以前、AGIのようなものは次の5年間には絶対に現れないと言っていました。
三日前、彼はこれを言いました。
AIがいずれ人間の知能をすべての領域で達成し、超えることは疑いの余地がありません。
しかし、それは来年起こることはありません。
それから、彼はかっこ内で、自己回帰型大規模言語モデルが実際にAGIの構成要素を構成するかもしれないと述べました。
それは以前の発言と比べて、私にはわずかな強調の変化のように思えます。
他の人たちは、AnthropicのCEOのように、はるかに攻撃的なタイムラインを持っています。
あなたがDario Amadeiから聞くことに関する文脈では、ASLレベル3は、重大な誤用のリスクを大幅に増加させるか、低レベルの自律能力を示すシステムを指します。
一方、AI安全レベル4は、重大な誤用の潜在性と自律性の質的なエスカレーションを含むシステムを示します。
タイムラインに関して、今週、彼はこれを言いました。
ASL 3がどれくらい先か、ざっくりと考えるとASL 4がどれくらい先かを想像すると、この指数関数的なスケーリング曲線について多く考えたことになります。
もし推測しなければならないとしたら、何について話していると思いますか?
私はASL 3は今年か来年に簡単に実現すると思います。
私はASL 4は2025年から2028年のどこかで実現すると思います。だからそれは速いです。
私は本当にここで近い将来について話しています。
50年後については話していません。
聞いている人によると、AGIは存在しないか、かなり間近に迫っていると言われています。
しかし、私は彼女と同じように終わらなければなりません。
一部の人は、映画「her」が2025年に設定されていたと言いますが、それはかなり適切に思え始めています。
実際にリリースされるかどうかは別として、私は次の年までに、私たち人類が「har」に近い何かを技術的に実現できると思います。
もし同意しているなら教えてください。
動画の最後まで見てくれて本当にありがとう。
ぜひ新しいニュースレターをチェックしてください。
私はそれをとても誇りに思っています。
そしていつも通り、素敵な一日を過ごしてください。