NVIDIAは最新の生成AIの進歩を紹介するために20以上の研究論文を公開しました。その中で注目すべき4つの論文を紹介します。
公開日:2023年5月14日
※動画を再生してから読むのがオススメです。
NVIDIAは約20種類の研究論文を発表し、その中で、生成AIの次の進歩について詳しく説明し、それが私たちにどのような影響を与えるかについて述べています。
このビデオでは、その中から4つの重要なものを取り上げ、これらのものが非常に興味深いものである理由を説明するつもりです。
正直なところ、特にAIの進歩によってNVIDIAができるようになったことに驚かれることでしょうから、ご期待ください。
NVIDIAの最初の画期的な論文の1つは、基本的に放送されたビデオから物理的にシミュレートされたテニススキルを学習するものです。
この動画や研究論文では、放送用のビデオを使用して、現在することが可能になったと述べています。
例えば、NBAやテニスの試合などです。
そのような技術や体の動きを模倣して、3Dキャラクターに正確にマッピングすることができます。
ただ、これは単にモーションキャプチャーの偽データを使っているわけではない、ということを理解しておいてください。
これは、本当に正確で精密で優れたデータであり、それを3Dレンダリングされたキャラクターに適用しているのです。
モーションキャプチャは大規模に制作すると非常に高価であり、現在モーションキャプチャを使用したいと考えている企業の中には、もちろん予算範囲を超えるために使用できない企業もあります。
また、モーションキャプチャーのデータは非常に大きいので、問題がある場合もあります。
ですので、ご存知の通り、ここで実際に録画された映像がたくさんあるほど、例えば、現役のスポーツ選手たちの試合を見る場合など、モーションキャプチャ映像を単純に録画するよりもはるかに自然で優れています。
この論文やこの動画が語っているのは、基本的には、そのビデオからどのようにしてデータを取得できるのかということで、説明のリンクを残しておきます。
そして、そのデータを3Dキャラクターに変換し、ビデオで行われたことを正確に表現することができるのです。
このキャラクターが実際にできることは、ある時間に複数の異なる場所にボールを打ち込んだり、ある時間にある場所にボールを打ち込んだりすることができることです。
だから、確実に洗練されているものなんです。
かなり基本的なことだと思われるものではありません。
世の中にあるさまざまなプロジェクトは非常に基本的なものだと思いますが、これは間違いなく非常に洗練されたものだと思います。
彼らが開発したシステムは、ギザギザの動きを精緻化するのに非常に適しているようです。
いろいろな問題があるようですが、それらを改善し、修正することができたと語っています。
さて、このようなツールは他にあるのだろうかと思われる方もいらっしゃるかもしれません。
最近思いついたツールとしては、Dynamicsがリリースしたものがあります。
これは、モーキャップアニメーションの必要性を排除しようとするもので、非常によく似たものです。
オンラインではさまざまなデモを見ることができますし、もちろんこれはベータ版の段階で、ウェイティングリストに登録することができます。
モーションキャプチャーの分野でも、AIによって破壊されつつある分野であることは間違いないでしょう。
しかし、正直なところ、このNVIDIAの研究論文は、ワンダーダイナミクスがやろうとしていることを非常に細かく調整したものだと思います。
ですから、もしこれがスキルとして完全にリリースされれば、特にビデオゲームや、そのようなデータを必要とする他の産業において、物事の捉え方が変わることは間違いないでしょうね。
さて、NVIDIAは、彼がもう一度言ったように、もっといろいろなものを出してきます。
これは、正直に言って、とても印象的なものです。
これは、テキストから画像へのパーソナライゼーションのための、キーロックされたランク1編集と呼ばれているものです。
NVIDIAはこのように名付けています。
そして、本質的には、これは彼らが「プロフュージョン」と呼ぶものです。
モデルサイズがわずか100キロバイトで、およそ4分間トレーニングされた新しいテキストから画像へのパーソナライゼーション手法であるprofusionを紹介します」と書かれています。これは、パーソナライズされたオブジェクトを創造的に描写することができ、その外観を大きく変えることができるのです。
文字通り、たった1枚の画像をもとにパーソナライズされた画像を学習させるというこの手法の優秀さに、皆さんは衝撃を受けることでしょう。
そして、それをテキストプロンプトでカスタマイズすることができるのです。
では、いくつかの例を見てみましょう。これは、AIの画像生成に関して、私が見た中で最も画期的なものの1つです。
最初の例として、Profusionがいくつかの秒で8枚の魅力的な画像を生成することができ、その画像で起こっていることの本質を変えることができます。
実際のテーブルを、雪に覆われた状態で見せることができるのです。
このように、この画像は単なるフワフワしたものではないことがお分かりいただけると思います。
この画像で見ることができるのは、本当に高品質なデータで、本当に読みやすく、とても良いものです。
このように、このデータはもっと広く使われるようになると思います。
Midjourneyのようなアプリケーションよりも、このパーソナライゼーションが、この種のモデルの活用の原動力になると思うからです。
なぜなら、パーソナライズができれば、より多くの人に使ってもらえるからです。
もちろん、これらの画像には大きな一貫性があることもおわかりいただけると思います。
これは、多くの人がMidjourneyに求めていたことであり、profusionはこの点に優れていて、非常にうまくできています。
このほかにも、驚くようなトレーニングの例がいくつかあります。
左側にあるテディとティーポットの例です。
このように、1つのコンセプトを別のイメージに変換しているのですが、これが非常によく見えるのです。
つまり、これはとてもクールだということがわかります。
しかし、この例では見えませんが、よく見ると、実際に2つの学習済み画像を組み合わせていることがわかります。
右側には、推論で結合された概念が表示されています。
テディがティーポットと一緒に火のそばに座っている」と「テディがティーポットの上に乗って湖を航行している」です。
これは本当に素晴らしいことです。
この技術は多くの異なるアプリケーションがあり、私はAdobeがこの種のソフトウェアをFireflyに組み込むために奔走するだろうと確信しています。
これは、Dreambooth以外では見たことがないものだと思います。
しかし、このレベルの一貫性ともちろん品質で、私たちはまだ見たことがありません。
NVIDIAの製品は、本当に画期的なものです。
また、青いスーツを着たテディがグルメな食事を見ているといった他の例も見ることができます。
とても正確そうですね。
もちろん、ソンブレロをかぶった犬も、間違いなく正確な出力です。
さて、多くの人が気になるのは、このようなことをする他のモデルと比較してどうなのかということでしょう。
ここでは、他のモデルが同じ正確なプロンプトと同じ正確な思考をどのように扱っているかを実際に示しています。
そして、NVIDIAのモデルが圧倒的に優れていることは明らかだと思います。
つまり、彼らはこれを得るためにいくつかのプロンプトを使いましたが、他のものは実際にタスクを理解していないようで、正直言って失敗していますが、目を見張るほどではありません。
しかし、NVIDIAはその一歩先を行っているのです。
さて、ここで皆さんにお見せしたいのは、これこそがAI画像生成の未来だと思うからです。
一発勝負のパーソナライゼーションです。
ある人は、あるものの画像を1枚だけ持っていて、その画像の一貫性を保ちつつ、さらにそれを操作したいと思うかもしれません。
NVIDIAのPerfusionを使えば、まさにこのようなことが可能になります。
これは、まさに画期的なことなのです。
NVIDIAのPerfusionは、イベントで詳しく述べられると思われるモデルの1つであり、ぜひ注目すべきものです。
なぜなら、それがNVIDIAのCastleに組み込まれる可能性があるとすれば、その後、さまざまなアプリケーションに展開されることになるでしょう。
NVIDIAは、さまざまな企業やソフトウェアがPicassoクラウドサービスを利用できるようにする予定だからです。
ですから、間違いなく注目すべきものです。
さて、これは非常に興味深いことです。
これは、NVIDIAがリードしていることを改めて示しています。
これは、リアルタイムのラディアンスフィールドからのライブ3Dポートレートで、単一画像のポートレートビュー合成を行います。
もっと簡単に言うと、1枚の画像からフォトリアリスティックな3D表現をリアルタイムで推測し、レンダリングするワンショット方式を提示しています。
つまり、何かの画像を取得し、その画像の3Dリアルなフォトリアリスティック表現を得ることができるのです。
さて、ここに入力と出力が表示されています。
そして、競合の詳細なレベルを見たことがない人には、なぜこれが本当に画期的なことなのか理解できないかもしれません。
なぜなら、画像から3Dデータを推測するのは非常に難しいからです。
何がどこにあるのかを描き出すには、さまざまな複雑な要素が絡んでくるからです。
しかも、簡単に間違ってしまうものなのです。
しかし、これはNVIDIAが得意とするところです。
この研究論文/ビデオでは、NVIDIAがどのようにしてこれを実現したのか、またどのようなテクニックを使ったのかについて詳しく説明しています。
つまり、彼らがどうやってこれを実現したのか、正直なところ非常に興味深いのです。
数年前までは、これほどの精度を出せるとは思ってもみなかったからです。
そして、先ほども言ったように、AIがこの急速なペースで発展し続けるにつれて、私たちは、可能だと思われていなかったイノベーションがとんでもないレベルで発展するのを見るようになるでしょう。
さて、これは私が本当に、本当に面白いと思ったことです。
リアルタイムで見ると、このように異なる効果を得ることができるのです。
入力と出力の新規ビューを比較すると、この話者が言っていることに完全に異なる角度を得ることができます。
また、ここでは、走行中のビデオと、入力された1枚の画像を見ています。
そして、もちろん、2Dのトーキングヘッドと3Dのリフティングがあります。
これは、ある面ではdidに匹敵するものです。
ご存じない方もいらっしゃるかもしれませんが、要するに、画像を動きのあるものに変換するものです。
しかし、これは完全に無感覚なレベルなんです。
左上の動画で、他の領域のものと比べてわかることです。
そして、NVIDIAの方がはるかに正確で、はるかに詳細であることがはっきりとわかります。
そして、これは現在開発されている他のどの製品よりも明らかに優れています。
ですから、私はNVIDIAがこのようなことをしたことに、脱帽ですと言いたいです。
ブログのたびに、研究論文を読むたびに、ほんの2週間前に読んだ他の研究論文と比較して、NVIDIAが真に可能なことの限界を押し広げているのを目の当たりにしています。
さて、さらに素晴らしいのは、前回お話したように、リアルタイムで、誰かが携帯電話を使ってRGBビデオを3Dにするライブデモを見ることができることです。
もちろん、これはRTX 490で動作しており、実質的に最上位のグラフィックスカードの1つです。
しかし、このデモは、RTX 490の潜在的な用途を示すものでもあります。
例えば、何かを別の角度から見たいと思ったとき、あるいは誰かをより立体的に見たいと思ったとき、これを想像してみてください。
よりリアルで臨場感のあるビデオ通話を実現することができるのです。
ですから、どのような用途になるかは、まだよくわかりません。
もちろん、今はまだ純粋な憶測に過ぎません。
しかし、単純な2D画像からこれだけの奥行きとディテールを生み出すことができるのは、本当にすごいことだということがわかります。
さて、こちらは本当にクールです。
ゲームをされる方ならご存知だと思いますが、ゲームでは髪の毛の表現が非常に難しいのです。
これは、髪の毛の1本1本がどのように動くかを計算するために、複雑な計算が必要になるためです。
しかし、NVIDIAはその解決策を思いつきました。
この新しい論文では、何万本もの髪の毛を高解像度でリアルタイムにシミュレートできる方法について述べています。
これは、神経物理学と、現実世界で物体がどのように動くかを予測する方法をニューラルネットワークに教えるAI技術を使って行われています。
つまり、ニューラルネットワークを使って、毛髪がどのように見えるかを教えているのです。
しかも、これはリアルタイムで行われます。
ですから、実際のゲームではどのように動くのか、とても楽しみです。
そしてもちろん、ニューラルテクスチャとBCXテクスチャの比較も行いました。
つまり、ニューラルネットワークを使って、通常はファイルサイズが大きいテクスチャを圧縮しているのですが、それ以外のコストはかかりません。
つまり、GPUサイズや本質的なサイズにコストはかかりません。
どちらもファイルサイズは3メガバイト程度であることがお分かりいただけると思います。
しかし同時に、左側のNVIDIAの新しいニューラル・テクスチャは、同じファイルサイズで最大16倍もの品質を生み出していることがわかります。
これは非常に興味深いことで、同じパワーレベルでより高いクオリティが得られることを意味します。
つまり、これはNVIDIAにとって、本当に、本当に画期的なことなのです。
さて、このコンピュータグラフィックスに関する年次会議は、8月に開催される予定です。
そこで、NVIDIAのすべてのアイデア、特にAIと相互に関連するアイデアが発表される予定です。
NVIDIAが今後どのような話題を取り上げるのか、特に今日話したトピックをさらに拡大することが興味深いでしょう。