見出し画像

画像読み込みが出来るようになったBardとBing AIを試してみる その①

7月の半ばくらいから、GoogleのBardと、MicrosoftのBing AIのチャットがそれぞれ、画像のアップロード(読み込み・認識)に対応するようになりました。もともとは、Open AIがGPT-4の紹介をしたときに、画像の認識もできることをデモして話題になり、私もそれが出来るんだったら面白そう!!と速攻でChat GPT Plusに加入したのですが、どういうわけかその機能は提供されないままでした。そんな中でBardとBing AIは一般向けの提供という点では一歩前に出たことになります。(7/20日現在はまだ、英語モードでのみ対応などいくらか制限があるようです)
私は旅行に行ったりすると、風景の写真をよく撮ります。特に凝った写真を撮るわけではなくスナップ写真です。また、手元には自分の子供の頃、つまりフィルムカメラ時代に、親が撮った写真も、たくさんあります。その中には、これはいつ頃、どこで撮ったのか? を知りたくなることがあります。GoogleマップやGoogle Earthで調べまくって、映っている景色を手掛かりに割り出してみると興味深い発見があったりするのですが、それがAIを使えばもっと簡単に分析できるようになるかもしれない。まずはこれが関心事です。
そこで自分が撮った写真から一枚、読み込ませてみました。

CNタワーとトロントの街並み

特徴的な形状のタワーがCNタワーであることを知っている人なら、これがカナダのトロントであり、手前の水面はオンタリオ湖だということがわかります。何年か前に旅行で行った時のものです。これをどこから撮ったのか、またいつごろ撮ったと考えられるか、BardとBing AIに聞いてみることにしましょう。

Bard
The picture you sent me shows a view of Toronto, Ontario, Canada from across Lake Ontario. The CN Tower is clearly visible in the center of the image. The time of day is sunset, and the sky is a clear blue. Based on the shadows, I estimate that the picture was taken around 21:00 local time, which is 5:00 PM Pacific Standard Time.

場所も撮影した時間帯も当てたBardだが・・・

トロントであり、オンタリオ湖越しにCNタワーが映っていると、見事に言い当てました。また撮影した時間も21時と推定していますが、実際に撮影したときのExifデータが正しければ20時過ぎ、と記録されているのでほぼ当たっています! そして、、、

The exact location of the picture was taken is likely somewhere along the Humber Bay Shores, which is a waterfront park in Toronto. The address of the Humber Bay Shores Park is 200 Queens Quay W, Toronto, ON M5A 1A5.

と、撮影した場所がHumber Bay Shoresだろう、と言ってます。すごい!
実は、この写真をオンタリオ湖畔の公園のような遊歩道から撮ったのは覚えているのですが、実際どこだったかよく思い出せなかったのでそれが知りたかったのです。Google Earthで検証してみたら、バッチリ当たっていることが確認できました。
よく見ると公園の住所まで示してくれているではありませんか。ちょっと興奮を覚えながら、その住所をググると、、、場所は、CNタワーすぐ近くのハーバーフロントと呼ばれるエリア、つまりまったく別の場所でした。撮った場所を正確に割り出してくれたのに、その住所がデタラメ(と言っても直線で7,8km程度の違いなのでデタラメは言い過ぎかもしれないけど)だとは。これにはちょっと拍子抜けしました。

撮影した年もわかるだろうか・・・

しかしそこは気を取り直して、次にこの写真に写っている建物などから、この写真がいつごろ撮られたものか推定してほしいと頼んでみました。
実はお試しのためにこの写真を使うことにしたのには理由があります。トロントは特に2000年代ごろからでしょうか。オンタリオ湖畔を中心に高層ビル、特にコンドミニアムの建設ラッシュが続いているようで、私が2014年に訪れたこの時も、10年前とは街の景色が大きく変わっていることに驚いたのです。このビルがまだ建っていなくて、あのビルは建設中のクレーンが映っていて、、、という具合に、データベース上の他のトロントの写真と比較しながら解析する能力があれば、おのずと年単位くらいの精度で写真が撮られた年を割り出せることが期待できます。で、Bardさんの回答は、、、

Bard
Based on the appearance of the buildings, I estimate that the picture was taken sometime between 1985 and 1995. The buildings in the background are still relatively new, but they have not yet reached the height of the CN Tower.

1985年から1995年の間、とかなりハズレてしまいました。
Bardに対して、具体的に写真の中で2012年頃、2015年頃にできたビルの名前を調べたうえで、このことから撮影された年が大体推定できるのではないかと指摘してみたところ、正しい情報を教えてくれてありがとうというお行儀の良い返事は返ってきましたが、なんとなく、実際はどのビルのことを指しているのか理解してないんだろうな、という気がしました。

Google MapsやGoogle Earthで人間でもちょっと手間をかければ解析できるからと言って、それがGoogleのBardさんなら同じようなことが簡単にできるのかというと、まだそこまでではなさそうです。
うーん、、題材のトロントの写真自体もニッチなのかな。

では気を取り直して、次はBing AIさん。 GPT-4を使ってるので、ちょっと期待が高まってしまいます。
ということで同じ写真を見せてみたのですが、、、

Bing AI
I’m sorry but I’m not able to perform reverse image searches. However, based on your description, it seems like the photo is of the Toronto skyline at sunset. Unfortunately, I cannot determine the exact location or year it was taken.

逆画像検索には対応していないのでわからない。夕方のトロントのようだけど撮った場所や時期はわからない、ということでした。なぜトロントだと思ったのかを尋ねると、CNタワーが映っているからと答えてきました。

なるほど…CNタワーを識別している、ということはやっぱり写真に何が映っているのかについては理解出来ているのでしょう。ここで気づくのは、どこから撮ったのか、いつ撮ったのか、という「逆解析」のようなことについては、自主規制をしているのではないかということです。よく考えてみれば、このような風景写真ではなく誰かの家を写した写真を見せて、住所を割り出したり、撮った写真を解析されて自宅や滞在先など、居場所を特定されたりすると、犯罪や悪質な商売やストーカー行為等に悪用される可能性があります。Bing AIの場合はそのあたりの懸念を考慮して、まずはキツめの自主規制をかけているのかもしれません。
AIについて、誰が 誰に対して 何を どのように 規制するのが妥当か、という議論は非常に重要で難しいものだということを感じてしまいます。

それはさておき、次は場所をニューヨークに移して、お題の難易度を少し下げて試してみようと思います。
画像読み込みが出来るようになったBardとBing AIを試してみる その②|SATOSHI (note.com)

2023 11/13追記
満を持して? 最新のChatGPT(GPT-4)でもやってみました。
画像読み込みテスト ChatGPTでやってみたら・・・画像解析能力の現在地が見えてきた|SATOSHI (note.com)


この記事が気に入ったらサポートをしてみませんか?