見出し画像

[Bard]Google Bardに画像入力ができるようになったので、いろいろ試してみる。


Google Bardとは

Google Bardとは、Google版ChatGPTみたいなもので、基本的な機能はChatGPTと変わりありません。
回答の精度については、個人的な感覚ですが、
GPT-3.5と同等程度かなと思っています。

Google Bardが大幅アップデート!画像入力ができるようになった

詳しくは下記ニュース記事を

YoutubeやGmailなどと連携できるようになったり(日本語未対応)、画像による質問ができるようになったみたいです。
今回は入力した画像をBardがどれくらい理解できるかを簡単に検証してみました。

森の小道を歩いているときの画像

まずは、箱根の森を歩いているときに撮影した写真を入力して、画像の内容を回答してもらいました。

これは理解できてる模様

この画像はちゃんと理解できているようで、必要最低限の出力をしてくれています。

プロフィール記事のスクリーンショット

次は私のnote自己紹介記事のスクリーンショットを入力してみました。

画像内のテキスト理解はもちろんのこと、必要な情報を抽出してくれています。

3行でという指示を厳密には守れていませんが、画像内のテキスト理解・画像が何であるかを示すための情報を出力することができています。
これは結構すごいなと思いました。

将棋の局面図

最後に、将棋の局面図を入力してみました。

将棋だということはわかっているが、それ以外は微妙

最初からあまり期待はしていませんでしたが、最低限将棋であるということは理解できているみたいです。
将棋に関しては、学習できる情報がネット上に少ないので、LLMはまだ理解できていないのではないかなと推測しています。

画像質問の活用法

・紙媒体の書籍などを写真撮影して、後で文字おこしを行う
・撮影した写真の概要説明文を出力させて、インスタのキャプションとして使う
などでしょうか。
まだリリースされたばかりの機能なので、いろいろ試してみようと思います。

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?