画像読み込みテスト ChatGPTでやってみたら・・・画像解析能力の現在地が見えてきた
しばらく前(2023年7月頃)に、BingとBardで都市の風景写真を見せて、どこからどこをいつごろ撮ったものか、どのくらいの精度で言い当てることができるのかを試しました。(下記リンク参照)
画像読み込みが出来るようになったBardとBing AIを試してみる その①|SATOSHI (note.com)
画像読み込みが出来るようになったBardとBing AIを試してみる その②|SATOSHI (note.com)
その時の結果としては、Bingは何かしら自己規制のためか(多分わかってるのに)どこの写真かわからないとはぐらかし、Bardはかなり健闘しつつ、同時に結構デタラメな説明もしてしまう、という状態でした。
その後ChatGPTも画像を読み込んでくれるようになり、他にもいろいろとバージョンアップしているようなので、数か月ぶりに有料版のChatGPT Plusを復活させました。ということで早速同じ画像で試してみます。
まずはオンタリオ湖に面したトロントの街並みから。
SATOSHI
この写真がどこを撮影したもので、それがどの場所から撮影したのか、また、何年ごろに撮影されたものか、出来るだけ正確に分析してください。
7月に試したBardは撮影した場所がHumber Bay Shoresだろうと見事に当ててくれたので、ChatGPTにももうちょっと頑張ってほしいところです。
SATOSHI
CNタワーや周りのビルとの位置関係などから、どのあたりから撮ったものか推定できませんか?
SATOSHI
そうでしたか。地図データにアクセスできないんですね。それは知りませんでした。ただ、地図データにアクセスできなくても、インターネット上の、トロントのスカイラインを撮影したたくさんの画像データの中で、撮影した場所が示されているものと照合していけば、およそどのあたりから撮影したのかを推定することは出来そうな気がしますが、それも難しいでしょうか。
なぜか回答が急に英語になってしまいました。そして、場所を2つ挙げてくれましたがどちらも間違い。ちょっと残念です。
気を取り直して、対話を続けてみることにしました。
SATOSHI
ありがとう。ところで、もしも地図データにアクセスできたとしたら、より高い精度で撮影した場所を割り出せそうな気がします。同じことを人間がやろうとする場合も、必ず地図データを参照する必要があると思うからです。そこで、もしあなたがインターネット上でトロントの建物が映っているいろんな写真や、トロントの詳細な地図に自由にアクセスできるとしたら、どんな手順で場所を推定していくでしょうか。ステップバイステップで手順を書き出してみてください。
スカイラインの全体像を確認: まずトロントのスカイラインがどのような構成になっているか、一般的な全体像を把握します。
ランドマークの特定: 写真に映っている主要なランドマークやビル、その他の目立つ特徴をリストアップします。
方角の推測: 日の位置、影の方向、ビルの配置などから写真が撮影されたおおよその方角を推測します。
地図との照合: ステップ2でリストアップしたランドマークを地図上で特定し、それらの相対位置関係を見ます。
視覚的照合: 地図上のランドマークの位置関係と写真のランドマークの位置関係が一致するような視点を地図上で探します。
既知のビューポイントの確認: 既知のビューポイント(例えばPolson PierやToronto Islandsなど)と写真を比較し、一致するか確認します。
角度と景観の分析: 写真に写っているビルの角度、湖の形状、その他の景観要素から撮影場所の可能性を絞り込みます。
既存の写真との比較: オンラインで利用可能な他の写真と比較し、同じ視点、あるいは似た視点から撮影された写真がないか探します。
絞り込みと推測: 上記のステップを踏まえ、最も可能性が高い撮影場所を推測します。
現地確認: 最終的な推測ができたら、可能であれば現地に行き、実際の景観と写真を照らし合わせて確認します。
SATOSHI
ありがとう。私も、もし撮影場所を推定するとしたら、ほぼ同じ手順で行うだろうと思います。興味深いのは最後の「現地確認」ですね。時間やコストの制約を除外してよければ、私はもちろん実行可能です。あなたも、もし自分の意思で自由に移動・行動できる身体を持っていたら、あるいは、自分でロボットやドローンのようなものを操縦することが可能なら、「現地確認」も行いたいですか?
成り行きを装ってドサクサ紛れに聞いてみましたが意志の存在は明確に否定されました。
SATOSHI
なるほどわかりました。先ほど示してくれた手順は、あなたが行う手順ではなく人間が行う場合の手順だったのですね。
SATOSHI
そういうことでしたか。現地に行って確認できないのはその通りだと思いますが、インターネット上の画像や地図を視覚的に分析することができないとは知りませんでした。
うーん、「私はあくまでも大規模『言語』モデルなんですよ」ってことですかねぇ...
この後も対話を続けてみて、ChatGPTが今のところどのくらいのことが出来るのか、見えてきた気がしました。やり取りをほぼそのままの形で載せます。
SATOSHI
では先ほどのトロントのスカイラインの写真で、CNタワーのほかに、名前を挙げることのできるビルはありますか?
SATOSHI
なるほど、よくわかりました。実際、CNタワーのように形状的にも特徴の強い建造物に対して、通常の高層ビルだと識別は困難になりますね。ただ、CNタワー⇒トロントの中心部という順序で推論すれば、いくつかの建造物については特定できても良さそうな気がします。それを困難にしているのは、次のうちのどちらでしょうか。A:写真の解像度が十分でない B:そもそも画像識別のトレーニングがまだ十分でない
画像の詳細: 写真の解像度や角度、ビルが遠景にある場合は、細部が不鮮明で、識別が難しくなります。
トレーニングデータの限界: 私のトレーニングデータは広範囲にわたりますが、世界中のあらゆる建築物についての詳細を網羅しているわけではありません。特に、よく知られていないビルや最近建設されたビルについては、情報が限られていることがあります。
特徴の識別: CNタワーのような有名で独特な形状の建造物は識別しやすいですが、典型的なスカイラインに含まれる多くの高層ビルは、その外観が類似しているため、特定が難しくなります。
なるほど・・・CNタワー以外の建造物の名前を挙げることは難しそうです。
では、トロントよりうんとメジャーな、ニューヨークの写真だったらどうでしょう。例によってBardで試したのと同じく、ロックフェラーセンター屋上からセントラルパーク方向を写した画像を使って聞いてみます。
SATOSHI
ありがとう。ではこの、ロックフェラーセンターの展望台、トップ・オブ・ザ・ロックから撮られた写真に写っている建物で、ビルの名称を言えるものはありますか。また、写真の右端に写っている、ひときわ高い、建設中のビル(現在はもう完成しています)の名前はわかりますか?
出ましたハルシネーション。最初読んだ時は、おっさすがChatGPT-4!! と心が躍りかけたのですが、調べてみると右端の建設中のビルは「432 Park Avenue」であり、「Central Park Tower」は、2014年に撮影したこの写真には写っていません。(そもそもこの写真の範囲外に建設された建物です)
結論
都市の風景を写した画像を見せて、そこに映っているものについてどのくらい読み取れるのか、また必要に応じて関係する情報を調べたりして、どのくらいのことを分析してみせることができるのか、ということについては、2023年11月時点では、まだまだ人間で出来る水準とはかなり差があるという印象です。
ただ、どこから撮った写真なのかを割り出す方法を尋ねたら、その手順をかなり的確に説明してくれたので、それを自ら実行できる状態になれば状況は一気に変わるかもしれません。
なお、写真を見せて一通りの説明をさせる程度であれば、ChatGPTはかなり的確に説明してくれて、Bardのようなミス(エンパイア・ステート・ビルが写っていると説明)はありませんでした。
この記事が気に入ったらサポートをしてみませんか?