3Dポイントクラウドデータの理解を目指した大規模言語モデル PointLLM
PointLLMはオブジェクトのカラーポイントクラウドを理解することができるマルチモーダル大規模言語モデルです。このモデルは、あいまいな深度、遮蔽、視点依存性の心配なく、オブジェクトの種類、幾何学的構造、および外観を認識します。2段階のトレーニング戦略を可能にするために、66万件のシンプルなポイント・テキスト指示ペアと7万件の複雑なポイント・テキスト指示ペアからなる新しいデータセットを収集しました。モデルの知覚能力とその一般化能力を厳密に評価するために、生成的3Dオブジェクト