Vision GenAI👁NVIDIAが発表した最新の視覚生成AIを紹介します！

2024年6月25日 11:09

この記事は以下のブログの内容を参考に書かれたものです。
NVIDIA Showcases Advancements in Visual GenAI at 2024 CVPR

こんにちは！テクニカルディレクター集団「BASSDRUM」のnaruminです。
生成AI（GenAI）にはテキスト、画像・動画、3Dモデル、サウンドなど様々な分野がありますが、主に画像や動画領域の進化に貢献するVision GenAI（視覚的な生成AI）についての最新ニュースを調べてみました👁

AIのトレンドをリサーチする時、企業ニュースや有識者の発信を追うのも効果的ですが、世界各国で開催されているカンファレンスのレポートは、特に最新の技術、それを発表した企業、受賞によるインパクトなど様々な側面を一気に情報収集できる点で良い手法だと感じています。
2024年6月17日から21日までワシントン州シアトルで開催されたCVPR 2024（コンピュータビジョンとパターン認識会議）で、50以上のVision Gen AI（視覚的な生成AI）プロジェクトを展示したNVIDIAに着目し、Vision GenAI分野の最先端をキャッチアップします。

CVPR 2024とは？
コンピュータビジョンとパターン認識に関する会議（CVPR）は、コンピュータビジョンとパターン認識に関する年次会議であり、その分野で最も重要な会議の1つと見なされています。Google Scholar Metrics（2022）によると、コンピュータービジョン領域において最も影響力のあるカンファレンスです。

Conference on Computer Vision and Pattern Recognition

NVIDIAの新しい発表

今回の発表で特に注目されたのは以下のプロジェクトです。

拡散モデルの訓練ダイナミクス / training dynamics of diffusion models
自動運転車のための高解像度マッピング / high-definition mapping for autonomous vehicles

これらのプロジェクトは、CVPR’s Best Paper Awardsのファイナリストに選ばれました。

技術の解説と新規性

上記に記載した2つのプロジェクトに加え、CVPRでNVIDIAが発表した具体的な技術について紹介します！

拡散モデルの訓練ダイナミクス / training dynamics of diffusion models
この技術は、AIが学習する過程を効率化し、より精度の高い結果を得ることができます。特に自動運転車の高精度な地図作成に役立っており、この技術のおかげで自動運転車の安全性と性能が向上しています。
NVIDIA Omniverse Cloud Sensor RTX
自動化マシンの開発を加速するための技術で、非常に精密なセンサーシミュレーションを提供します。これにより、さまざまな自動化マシンの開発が迅速かつ正確に行えるようになります。
例えば、自動運転車の開発において、リアルなシミュレーション環境を提供することで、テストの効率が大幅に向上します。
JeDI
JeDIは、拡散モデルの出力を数秒でパーソナライズする新しい技術です。これにより、ユーザーは特定のキャラクターや商品ビジュアルを迅速に作成できるようになります。
この技術は、広告やエンターテインメントの分野で非常に役立つと期待されています。
FoundationPose
FoundationPoseは、オブジェクトの姿勢を推定し、追跡するための基盤モデルです。この技術は、参照画像の小さなセットやオブジェクトの3D表現を使用して、その形状を理解し、オブジェクトが3Dでどのように動き回転するかを予測することができます。
これにより、自動ロボットやARアプリケーションのさらなる進歩が期待されます。
NeRFDeformer
NeRFDeformerは、Neural Radiance Field（NeRF）技術を用いて、3Dシーンを動的に編集するための新しい方法です。これにより、単一の2Dスナップショットを使用して3Dシーンを迅速に編集できるようになります。
この技術は、特にゲームや映画の制作において、大きな革新をもたらすと期待されています。
VILA
VILAは、画像とテキストの両方を理解し処理することができる先端の視覚言語モデルです。この技術は、従来のモデルに比べて推論速度が大幅に向上し、コンテクスト内学習も実現しています。
例えば、VILAを使用すると、画像の内容を即座に説明するキャプションを生成したり、画像に基づいた質問に回答することができます。

拡散モデル（Diffusion Models）とは
生成AIの中の画像生成分野で活用される手法です。画像に少しずつノイズを加えて完全にランダムな状態にし、そのノイズから元の画像を再構築します。ノイズを取り除く過程で、画像が徐々に元の画像に戻ります。この方法を活用することで高品質な画像を生成できるため、詳細や質感を保ちながら画像を作るのに適しています。

Vision GenAI / 視覚生成AI技術まとめ

NVIDIAの生成AI技術の現在地を把握することで、Vision GenAIが今度どんな分野のどんなポイントに貢献していくかイメージを持つことができました！
NVIDIAの今回の発表は、特に自動運転車、ロボット技術などの分野で大きな影響を与えることが期待されていますが、ヘルスケアやゲームなどのエンターテイメント分野にも将来的には適用されることが一般的になりそうです。

最後に、BASSDRUMとは

BASSDRUMは、テクニカルディレクターが中心に集まった組織です。
さまざまなものづくりに関するプロジェクトにおいて、コアメンバーとして参画し、技術的な側面から寄与していくテクニカルディレクターに質問・相談がありましたら hello@bassdrum.org までお問い合わせください。https://bassdrum.org/ja/

この記事が気に入ったらサポートをしてみませんか？