見出し画像

Bard with Gemini Proで画像ファイルから、雑に書いた文字を抽出してみる。

Bard with Gemini Proにて、テキストが記載されている画像ファイルから、文字情報を読みだして、テキストデータとして、出力できるかためしてみた。

検証

次の画像は、テキストエディタに適当に文字列を入力して、キャプチャスクリーンで画像データとして切り取って、そのままBardに貼り付けた様子である。
結果、問題なく、適切に文字列が読みだされた。

画像ファイルから、テキストを抽出する。

次に、ペイントで太さや色を変えて、文字列を書いてみた。
こちらも問題なく、適切に文字列が読みだされた。

手書きの文字列の画像ファイルから、テキストを抽出する。part1

1文字のなかで2色の色をつかったり、関係のない線が文字にかかっていても、問題なく、読み取れる。

手書きの文字列の画像ファイルから、テキストを抽出する。part2

トリッキーなデザインの数字も問題なし。

手書きの数字の画像ファイルから、テキストを抽出する。

所感

まれにある、PDF等で画像ファイルとして保存されているテキストデータを書き起こしたいときに使えるなと思った。デザイン性がある文字列でも、ある程度は文字列として認識してくれるようで、需要があるかはさておき、チラシ等のテキスト抽出もできそう。

この記事が気に入ったらサポートをしてみませんか?