Bard with Gemini Proで画像ファイルから、雑に書いた文字を抽出してみる。

2023年12月9日 23:44

Bard with Gemini Proにて、テキストが記載されている画像ファイルから、文字情報を読みだして、テキストデータとして、出力できるかためしてみた。

次の画像は、テキストエディタに適当に文字列を入力して、キャプチャスクリーンで画像データとして切り取って、そのままBardに貼り付けた様子である。
結果、問題なく、適切に文字列が読みだされた。

次に、ペイントで太さや色を変えて、文字列を書いてみた。
こちらも問題なく、適切に文字列が読みだされた。

1文字のなかで2色の色をつかったり、関係のない線が文字にかかっていても、問題なく、読み取れる。

トリッキーなデザインの数字も問題なし。

まれにある、PDF等で画像ファイルとして保存されているテキストデータを書き起こしたいときに使えるなと思った。デザイン性がある文字列でも、ある程度は文字列として認識してくれるようで、需要があるかはさておき、チラシ等のテキスト抽出もできそう。

この記事が気に入ったらサポートをしてみませんか？