見出し画像

VisionProだとできなそうなのでとりあえず雑にAIと視覚をリアルタイム共有してみる

やはり案の定、Apple Vision Proはフロントカメラへのアクセスができないらしい。正直言うと、フロントカメラにアクセスできないと面白さは半減すると思う。まあ明日届くけど。

ちなみに僕はHMDは20年以上の付き合いがある。VRもARも何度もやってる。その上で、AIで人間を進化させるとしたら視覚との融合は避けて通れないテーマだ。

そこで、とりあえずカメラパススルーして画像を二枚表示し、VRゴーグルにとりつけてAIと視覚を一致させたらどうなるかという実験をやってみることにした。

指差したものを説明して、とGPT-4Vにプロンプトと画像を送っている
ウルトラマンとガーゴイルを識別できなかったようだ

いざAIと視界を共有すると、たとえば「この品物調べといて」とか「この店メモしといて」とか口頭で指示が出したくなる。

GPT-4Vへのプロンプト次第で「目の前の人物の感情を推定しろ」とか、「現在地を詳しく説明しろ」とか色々な使い道が考えられる。

明日VisionProが来ちゃったらこの実験するの忘れちゃいそうなので先にやってみた。

待て明日。