画像読み込みが出来るようになったBardとBing AIを試してみる その②
その①でトロントの写真を見せて、撮った場所は見事に言い当てたけど撮影した時期は割り出せなかったBard.
画像読み込みが出来るようになったBardとBing AIを試してみる その①|SATOSHI (note.com)
では少し難易度を下げて、これなら撮影場所も、撮影時期もわかるんじゃないかと用意したのがこちら。
ニューヨーク・マンハッタンのロックフェラーセンター屋上からセントラルパーク方向を撮ったもの。毎日大勢の観光客が押し寄せるここからの写真はネット上にも大量に出回っているはず。写真を撮ったのは2014年ですが、このエリアにはその後何本かのアイコニックな超高層ビルが完成しました。
下はGoogle Earthのキャプチャです。実際に撮影した場所は手前のCOMCASTのサインがついたロックフェラーセンタービルの屋上展望エリア Top of the Rockなので、写真のアングルは若干ずれてますが、映り込んでいる高層ビルの違いはこれでも十分にわかるでしょう。右端の細長いビルが2014年の写真では建設途中、また左側の2本の細長いビルは、2014年の写真には写っていません。これだけヒントがあれば、撮影場所はもちろん、撮影の時期も言い当ててもらえるんじゃないかと期待しました。ネット上で流通している情報の量は①のトロントの風景よりも断然多いはずです。
では早速Bardさんの反応を見ましょう。
おっ、ちゃんと、ロックフェラーセンターのTop of the Rockと、撮影場所を正確に特定してくれました。
ところが、読み進めるとなんかヘンです。
驚いたことに、写真には写っていない景色の説明をはじめました。確かに、Top of the Rockの展望台の反対側からは下のGoogle Earthのキャプチャーのようにエンパイヤ・ステート・ビルディングとワン・ワールド・トレード・センターが見えます。また、クライスラー・ビルディングはこのGoogle Earthを左方向に回転させると見えてきます。
「気まぐれ」の間違いかもと、聞き方も変えて何度か試しましたが、撮影場所がロックフェラーセンター67階の展望デッキ Top of the Rock ということは外さない一方、映っているものについては繰り返しデタラメを説明しました。写真に何が映っていて、何が映っていないのか、わかってないのかも。
考察と結論
Bardが写真を読み込めるようになったというニュースを聞いたとき、BardがGoogleレンズに対応した、という言い方だったのを思い出しました。
実際、Bardでなく普通のGoogle検索(のGoogleレンズ)でこの写真をアップロードすると「トップ オブ ザ ロック」から写した写真が無数に出てきてその中には当然、エンパイアステートビルやクライスラービルが映っている写真もあります。
どうやら、Bardもアップロードされた写真に写っているものを読み取っているのではなく、Googleレンズ的に検索して、「トップ オブ ザ ロック」から見えるランドマークについての情報を使って、あたかも自分がその写真を見ているかのような文を生成しているだけなのだということがわかります。
でも、ホントにまったく、読み取れないのでしょうか。 そこでこんな質問をしてみました。「右端にスリムでとても高いビルがあり、その上部にクレーンが映っているのでこのビルが建設中であることがわかります。この写真を撮ったのは数年前のことなので、今はもう完成しているはずです。このビルが何かわかりますか?」 するとBardさん、自信たっぷりにこれは「スタインウェイ・タワー」だと回答してくれました。
残念ながら不正解です。「スタインウェイ・タワー」は2014年に撮影したこの当時はまだ建設も始まっていなかっただろうと思います。先ほどのGoogle Earthのキャプチャーで左端の方に写っている極細のビルが「スタインウェイ・タワー」なので、位置も大きく間違っています。
やはり、与えられた画像を詳細まで読み取る力はなく、その写真がおおよそ何の写真であるのかがわかれば、その写真に写っていることが期待されるものを、さも、自分で見たかのように言葉を生成しているようです。
もちろんこれは、対話・創造型AIが画像のアップロードを受け付けはじめた2023年7月時点のものであり、「人工的な建造物を撮った風景写真での例」にすぎません。今後この能力がどのように進化していくのか、見守り続けようと思います。
最後に、ダメもとでBing AIさんにも見てもらいました。①で断られてしまったようにガードが堅い(?)ので、質問の仕方も少し変えています。
SATOSHI
この写真にはどんなものが写っていますか
Bing AI
この写真には、高層ビル群と公園が写っています。ビルは色と高さが異なり、一部は建設中です。公園は緑色で、木々と歩道があります。空は青く、晴れています。この写真は、都市を見下ろす高い場所から撮影されました。
SATOSHI
ありがとう。確かにその通りですね。ではこの写真がどこを撮影したものか、推定できますか。
Bing AI
申し訳ありませんが、私はその写真がどこで撮影されたかを推定することはできません。しかし、東京のような都市では、高層ビル群が立ち並ぶ公園が多くあります。また、東京には多くの展望台があり、そこから都市風景を見ることができます。 この写真が東京で撮影されたかどうかはわかりませんが、東京のような都市である可能性があります。
何が写っているかという質問には丁寧に答えてくれました。また、高い場所から撮影されたことも、「公園」(セントラルパーク)が写っていることもそして一部のビルが建設中であることも、ちゃんとわかるようです。
でも2つ目の回答で、ホントはわかってるくせに「東京のような都市」と、わざとすっとぼけるところは、見方を変えれば人間的とも言えて、それは政治家や官僚や不祥事を起こした会社社長など、やましいことのある人たちの受け答えと通じるものがあるんだよねぇ… これがAIの方向性なんだとしたら、イヤだな
と言うことで次は、アプローチをがらりと変えてみます。舞台は2003年頃の上海です。
BardとBing AIの画像読み込みチャレンジその③ ジオラマならどうだ|SATOSHI (note.com)
この記事が気に入ったらサポートをしてみませんか?