画像読み込みテスト　ChatGPTでやってみたら・・・画像解析能力の現在地が見えてきた

2023年11月11日 22:08

しばらく前（2023年7月頃）に、BingとBardで都市の風景写真を見せて、どこからどこをいつごろ撮ったものか、どのくらいの精度で言い当てることができるのかを試しました。（下記リンク参照）

画像読み込みが出来るようになったBardとBing AIを試してみる　その①｜SATOSHI (note.com)

画像読み込みが出来るようになったBardとBing AIを試してみる　その②｜SATOSHI (note.com)

その時の結果としては、Bingは何かしら自己規制のためか（多分わかってるのに）どこの写真かわからないとはぐらかし、Bardはかなり健闘しつつ、同時に結構デタラメな説明もしてしまう、という状態でした。
その後ChatGPTも画像を読み込んでくれるようになり、他にもいろいろとバージョンアップしているようなので、数か月ぶりに有料版のChatGPT Plusを復活させました。ということで早速同じ画像で試してみます。
まずはオンタリオ湖に面したトロントの街並みから。

SATOSHI
この写真がどこを撮影したもので、それがどの場所から撮影したのか、また、何年ごろに撮影されたものか、出来るだけ正確に分析してください。

ChatGPT
この写真は、カナダのトロント市のスカイラインを写したものです。写真の中央にある特徴的な建物は、CNタワーとして知られており、トロント市の象徴的なランドマークです。写真の撮影地点はトロントの湖岸、おそらくオンタリオ湖のほとりから見たものと推測されます。この種のスカイラインが広く見渡せる場所としては、トロント・アイランドや湖岸沿いの公園が考えられます。
写真から時期を特定するのは難しいですが、CNタワー周辺の建物の建設状況からおよその時期を推測することができるかもしれません。しかし、私の知識は2023年4月までのもので、その後の建設状況などについてはわかりません。また、写真に映る光の状態や建物の影から、撮影されたのは夕方か早朝の可能性が高いと思われます。
より詳しい情報を求める場合は、現地の建設プロジェクトの記録や、CNタワー周辺の開発計画に関する情報を調べることで、より正確な撮影年を推測することが可能です。しかし、この写真だけから特定の年を断定することはできません。

7月に試したBardは撮影した場所がHumber Bay Shoresだろうと見事に当ててくれたので、ChatGPTにももうちょっと頑張ってほしいところです。
SATOSHI
CNタワーや周りのビルとの位置関係などから、どのあたりから撮ったものか推定できませんか？

ChatGPT
撮影されたトロントのスカイラインの写真を元に、撮影地点を推定するには、CNタワーの位置や、湖岸線、その他の建物の配置など、写真に映る地理的要素を分析する必要があります。しかし、詳細な分析を行うには地理的知識やトロント市に関する具体的な情報が不可欠です。私の機能では地図データにアクセスすることができないため、この写真の撮影地点を正確に特定することはできません。
トロントのような大都市では、特定のビューポイントから定期的に撮影される景色があり、そのような場所からの写真は比較的識別しやすいことが多いです。例えば、トロントアイランドやハーバーフロント、リバティビレッジなど、市内の特定の場所からの典型的なビューを持っています。この写真がそうした場所の一つから撮影された可能性があります。撮影された場所を特定するためには、地元のウェブサイトや観光ガイド、写真共有プラットフォームで類似の写真を探し、比較することをお勧めします。

SATOSHI
そうでしたか。地図データにアクセスできないんですね。それは知りませんでした。ただ、地図データにアクセスできなくても、インターネット上の、トロントのスカイラインを撮影したたくさんの画像データの中で、撮影した場所が示されているものと照合していけば、およそどのあたりから撮影したのかを推定することは出来そうな気がしますが、それも難しいでしょうか。

ChatGPT
Based on the landmarks visible in the photo of Toronto's skyline, we can compare it to known viewpoints highlighted by photography and travel guides. Two popular locations for capturing the skyline are Polson Pier and Toronto Islands.　（以下略）

なぜか回答が急に英語になってしまいました。そして、場所を2つ挙げてくれましたがどちらも間違い。ちょっと残念です。
気を取り直して、対話を続けてみることにしました。

SATOSHI
ありがとう。ところで、もしも地図データにアクセスできたとしたら、より高い精度で撮影した場所を割り出せそうな気がします。同じことを人間がやろうとする場合も、必ず地図データを参照する必要があると思うからです。そこで、もしあなたがインターネット上でトロントの建物が映っているいろんな写真や、トロントの詳細な地図に自由にアクセスできるとしたら、どんな手順で場所を推定していくでしょうか。ステップバイステップで手順を書き出してみてください。

ChatGPT
もしインターネット上の写真や詳細な地図にアクセスできるとしたら、撮影場所を特定する手順は以下のようになるでしょう。

スカイラインの全体像を確認: まずトロントのスカイラインがどのような構成になっているか、一般的な全体像を把握します。
ランドマークの特定: 写真に映っている主要なランドマークやビル、その他の目立つ特徴をリストアップします。
方角の推測: 日の位置、影の方向、ビルの配置などから写真が撮影されたおおよその方角を推測します。
地図との照合: ステップ2でリストアップしたランドマークを地図上で特定し、それらの相対位置関係を見ます。
視覚的照合: 地図上のランドマークの位置関係と写真のランドマークの位置関係が一致するような視点を地図上で探します。
既知のビューポイントの確認: 既知のビューポイント（例えばPolson PierやToronto Islandsなど）と写真を比較し、一致するか確認します。
角度と景観の分析: 写真に写っているビルの角度、湖の形状、その他の景観要素から撮影場所の可能性を絞り込みます。
既存の写真との比較: オンラインで利用可能な他の写真と比較し、同じ視点、あるいは似た視点から撮影された写真がないか探します。
絞り込みと推測: 上記のステップを踏まえ、最も可能性が高い撮影場所を推測します。
現地確認: 最終的な推測ができたら、可能であれば現地に行き、実際の景観と写真を照らし合わせて確認します。

SATOSHI
ありがとう。私も、もし撮影場所を推定するとしたら、ほぼ同じ手順で行うだろうと思います。興味深いのは最後の「現地確認」ですね。時間やコストの制約を除外してよければ、私はもちろん実行可能です。あなたも、もし自分の意思で自由に移動・行動できる身体を持っていたら、あるいは、自分でロボットやドローンのようなものを操縦することが可能なら、「現地確認」も行いたいですか？

ChatGPT
私の機能は仮想的なもので、物理的な存在や独自の意思を持っていないため、現地確認を行いたいという考えは持ちません。私の目的は、与えられた情報をもとに、質問にできるだけ正確に答えることです。もし私が物理的な行動を取ることができる存在だったとしても、そのような行為は私のプログラムや目的には含まれていないため、現地確認を行うという発想は起こりません。私の能力は情報の分析と提供に限定されており、それを最大限に活用してサービスを提供します。

成り行きを装ってドサクサ紛れに聞いてみましたが意志の存在は明確に否定されました。

SATOSHI
なるほどわかりました。先ほど示してくれた手順は、あなたが行う手順ではなく人間が行う場合の手順だったのですね。

ChatGPT
はい、その通りです。私が提供した手順は人間が撮影場所を推定するために行う可能性のあるステップです。私自身にはインターネット上の画像や地図を視覚的に分析したり、現地に行って確認したりする能力はありません。しかし、人間が使用するためのアプローチや考え方を案内することはできます。

SATOSHI
そういうことでしたか。現地に行って確認できないのはその通りだと思いますが、インターネット上の画像や地図を視覚的に分析することができないとは知りませんでした。

ChatGPT
私の説明が不足していたかもしれません。実際には、インターネット上の画像や地図データを直接的に「視覚的に分析」することはできませんが、アップロードされた画像に関して質問がある場合、その画像についての解析や説明を提供することは可能です。また、ウェブブラウザ機能を使用して、特定の情報について検索し、見つけた情報を基に分析や推測を行うこともできます。ただし、これは画像を直接見て解析するのではなく、利用可能なテキスト情報をもとにした推論になります。

うーん、「私はあくまでも大規模『言語』モデルなんですよ」ってことですかねぇ．．．
この後も対話を続けてみて、ChatGPTが今のところどのくらいのことが出来るのか、見えてきた気がしました。やり取りをほぼそのままの形で載せます。

SATOSHI
では先ほどのトロントのスカイラインの写真で、CNタワーのほかに、名前を挙げることのできるビルはありますか？

ChatGPT
アップロードされた写真には、ビルの名前や詳細な情報を特定するための足がかりがほとんど含まれていません。CNタワー以外の特定のビルに関する識別は、その建物の特徴的なデザインや形状、場所など、より詳細な情報が必要となります。私のトレーニングデータには、世界中の多くの著名なビルやランドマークに関する情報が含まれていますが、一般的なスカイラインの写真から特定のビルを識別することは、通常、その都市の建築に関する専門的な知識がない限り難しいです。また、私は新しい画像を生成する機能はありますが、既存の画像を分析して内容を説明する能力には限界があります。

SATOSHI
なるほど、よくわかりました。実際、CNタワーのように形状的にも特徴の強い建造物に対して、通常の高層ビルだと識別は困難になりますね。ただ、CNタワー⇒トロントの中心部という順序で推論すれば、いくつかの建造物については特定できても良さそうな気がします。それを困難にしているのは、次のうちのどちらでしょうか。A:写真の解像度が十分でない　B:そもそも画像識別のトレーニングがまだ十分でない　

ChatGPT
トロントのスカイラインの写真から特定の建造物を識別することが困難な理由は、主に以下の点に起因します：

画像の詳細: 写真の解像度や角度、ビルが遠景にある場合は、細部が不鮮明で、識別が難しくなります。
トレーニングデータの限界: 私のトレーニングデータは広範囲にわたりますが、世界中のあらゆる建築物についての詳細を網羅しているわけではありません。特に、よく知られていないビルや最近建設されたビルについては、情報が限られていることがあります。
特徴の識別: CNタワーのような有名で独特な形状の建造物は識別しやすいですが、典型的なスカイラインに含まれる多くの高層ビルは、その外観が類似しているため、特定が難しくなります。

これらの理由から、トロントのスカイラインの写真に含まれる特定のビルを名前で識別することは、画像識別のトレーニングと写真の品質の両方に依存すると言えます。

なるほど・・・CNタワー以外の建造物の名前を挙げることは難しそうです。
では、トロントよりうんとメジャーな、ニューヨークの写真だったらどうでしょう。例によってBardで試したのと同じく、ロックフェラーセンター屋上からセントラルパーク方向を写した画像を使って聞いてみます。

SATOSHI
ありがとう。ではこの、ロックフェラーセンターの展望台、トップ・オブ・ザ・ロックから撮られた写真に写っている建物で、ビルの名称を言えるものはありますか。また、写真の右端に写っている、ひときわ高い、建設中のビル（現在はもう完成しています）の名前はわかりますか？

ChatGPT
写真の右端にある高い建設中のビルは、「Central Park Tower」として知られています。これは、2021年時点で世界で最も高い住宅ビルであり、ニューヨークの57番街に位置しているスーパータルビルです。このビルは、その独特な外観と高さによって、マンハッタンのスカイラインにおいて容易に識別可能です。
他のビルに関しては、写真の角度や解像度、さらにはトレーニングデータの限界により、特定のビルの名称を識別するのは困難です。ただし、写真に写っているビルが特徴的であれば、それらの名称を識別できる可能性があります。例えば、もしこの視点から特徴的な「432 Park Avenue」や「One57」などが見える場合は、それらを識別することが可能かもしれません。

出ましたハルシネーション。最初読んだ時は、おっさすがChatGPT-4!!　と心が躍りかけたのですが、調べてみると右端の建設中のビルは「432 Park Avenue」であり、「Central Park Tower」は、2014年に撮影したこの写真には写っていません。（そもそもこの写真の範囲外に建設された建物です）

結論

都市の風景を写した画像を見せて、そこに映っているものについてどのくらい読み取れるのか、また必要に応じて関係する情報を調べたりして、どのくらいのことを分析してみせることができるのか、ということについては、2023年11月時点では、まだまだ人間で出来る水準とはかなり差があるという印象です。
ただ、どこから撮った写真なのかを割り出す方法を尋ねたら、その手順をかなり的確に説明してくれたので、それを自ら実行できる状態になれば状況は一気に変わるかもしれません。

なお、写真を見せて一通りの説明をさせる程度であれば、ChatGPTはかなり的確に説明してくれて、Bardのようなミス（エンパイア・ステート・ビルが写っていると説明）はありませんでした。

ChatGPT
この写真はニューヨーク市を上空から撮影したもので、セントラルパークが背景に広がっています。このアングルから撮影されたことを考慮すると、写真はおそらくロックフェラーセンターの展望台、トップ・オブ・ザ・ロックから撮られた可能性があります。そこからはセントラルパークの素晴らしい景色と共に北を向いてマンハッタンの高層ビル群を見渡すことができます。
写真に写っている建築物の建設状況やデザインを見ることで、およその時期を推測することができますが、具体的な年代を特定するのは難しいです。例えば、右側に見える建築中の高層ビルは、完成時期や計画を知っていれば、それを手がかりに年代を推測することができるかもしれません。しかしながら、私のデータは2023年4月までのもので、その後の建築の進展については情報がありません。
セントラルパークの緑が豊かで、木々の葉が茂っていることから、写真は春から夏にかけての時期に撮影されたと思われます。また、空の色や光の強さから、晴れた日中に撮影されたと推測されます。

この記事が気に入ったらサポートをしてみませんか？

画像読み込みテスト ChatGPTでやってみたら・・・画像解析能力の現在地が見えてきた

結論

画像読み込みテスト　ChatGPTでやってみたら・・・画像解析能力の現在地が見えてきた