気になる生成AI備忘録-vol.3-DepthAnythingとRoHMについて

2024年1月23日 20:38

■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた備忘録を共有する連載シリーズです。

より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定

今回は、2つ。

DepthAnything was just released! 🔥

TLDR: it was trained on labeled + 62M unlabeled images

The encoder is initialized with DINOv2, a segmentation models helps to detect the sky (and set depth to ∞), the unlabeled images are strongly distorted (color, blur, CutMix).

More ⬇️⬇️ pic.twitter.com/SMTQJNcUmO
— Alex Carlier (@alexcarliera) January 22, 2024

↑のポスト（リプ含む）は日本語では

DepthAnythingがついに公開されました！簡単に言うと、大量の画像で訓練された深度予測モデルです。
特徴:
ラベル付き画像6200万枚 + ラベルなし画像6200万枚で訓練
エンコーダーはDINOv2で事前学習済み (DINOv2はセグメンテーションモデルで、空を検出して深度を無限大に設定)
ラベルなし画像は色調整、ぼかし、CutMixなどの強い歪みを加えて訓練
大規模な訓練とDINOv2事前学習のおかげで、一般化能力が非常に優秀
超低露出画像、ぼやけた画像、霧がかかった画像、被写体に近いシーン、広域ドローン撮影などにも使える

さらに、DepthAnythingで生成した深度マップを使って、より微細な制御ができるControlNetも公開ということで、プロジェクトページやデモのリンクが綴られています。

「なんのこっちゃ？」

という方のために、わかりやすくポイントをまとめると

・DepthAnythingは、大量の画像で深度予測を行うモデルで、さまざまなシーンに適用できる汎用性が高い
・ラベルなし画像も活用して訓練することで、一般化能力を高めている
・DINOv2事前学習も利用し、さらに性能向上に貢献している。
・DepthAnythingだけでなく、深度マップを微調整できるControlNetも提供されている。

といったところでしょうか。

具体的に感じたこととしては、こういった技術はVR/ARやロボティクス、自動運転等の分野で期待されるのかなぁと。

ただ、DepthAnythingのような深度予測モデルの研究において考慮すべき重要な点としては、著作権周りの事なんじゃないかとも思いました。

著作権や倫理的・プライバシーの問題というのは、DepthAnythingで生成された深度マップが、例えば著作権で保護されている画像から生成された場合、その深度マップも著作権で保護される可能性があるということです。

また、DepthAnythingで生成された深度マップから、個人の特定やプライバシーの侵害につながる情報が漏洩する可能性があるという点が、倫理的・プライバシーの問題ということです。

いろんな分野での活用が期待されつつも、研究とともに上述したような問題（課題というべきですかね）とも並行していかないといけないんじゃないかとは思います。

勿論、技術的には単純にスゴイなぁ、と。

ただ、もうAI技術に関しては、とにかく進化のスピードが速いですし、

「こうなればいいんだけどな」

と、我々が思っている・感じていることだったりが、近いうちに普通に実現するのではないかと考えています。

必要以上に持ち上げてしまうと、その本質が見えにくくなってしまうため、AI技術・関連の発信の際には私も気を付けていますが、このDepthAnythingにしても”スゴイ”なとは思います。

いろんな分野で利活用される日が近ければいいですね。

AI can replace costly, high-end motion-tracking setups with a single camera!

RoHM can reconstruct complete, plausible 3D human motions from single monocular videos even with occluded joints!https://t.co/FygnaO1Kah pic.twitter.com/hqPfj0gkRU
— Dreaming Tulpa 🥓👑 (@dreamingtulpa) January 22, 2024

↑のポストの内容は、RoHMというAI技術が、単一のカメラで高価なモーショントラッキング装置に匹敵する、と。

説得力のある3Dの人間の動きのレ再構築することができる、と。

さらにわかりやすくいうと

・単一のカメラで、人間の動きを追跡する
・人間の動きから、3Dモデルを生成することができる
・3Dモデルは、人間の動きが遮られている場合でも、完全で説得力のあるものになる

といった内容になるかと思います。

私が感じたのは、この技術は、ゲームや映画などのエンターテインメント業界、そしてロボット工学や医療などの産業分野で、各用途に応用できる可能性があるな、と。

ゲームや映画などの業界においては、例えばこのRoHMを使用して、
よりリアルで没入感のあるキャラクターないし、シーンの作成が可能。

医療分野においては、RoHMを使用して、患者の動き（姿勢）を分析することができるのかな、と。

RoHMというAI技術、まだ開発中の技術ではありますが、今後の進化・発展に期待されていそうですね。

この記事が気に入ったらサポートをしてみませんか？