見出し画像

Chat GPTでDX。OCR機能を試す

Chat GPTでOCRを試してみました。OCRとは、Optical Character Reader/recognation)で光学的文字認識/読取という意味です。

手書き文字やPDFを読んでもらえたら事務処理が楽な局面もあります。
もうひとつ、Chat GPTのライバルGoogleが提唱するGemiのOCR機能が強化されたという噂を聞いたので、それぞれ性能比較を行ってみました。

サンプルは以下の通りです

サンプル

左が手書き文字。右がPDF化した活字です。よく、取引企業からPDFが送られてきて、その内容を分析するために打ち直していることがあります。

ちなみにChat GPTで読ませた結果です。

Chat GPTの結果


活字PDFなら楽勝で内容まで理解できますし、

CSVファイルも作ってくれます。

CSVファイルも作ってくれます。
しかし、手書き文字が決定的にだめ。そこでGeminiを使ってみます。比較表がこちら。
カレンダーもよみました。Geminiは読んでくれませんでした。

カレンダーを読ませる
ChatGPTとGeminiの比較


結論として両社は活字を読み取れます。ただし、Geminiは読めるファイルがJPEGに限定されます。Chat GPTはPDF,Jpegなど多様なファイルが読み込めます。

手書き文字は程度の差こそあれ、正確ではありません。Geminiは楷書文字なら読み取りますが、Chat GPTは誤読します。



この記事が気に入ったらサポートをしてみませんか?