見出し画像

DAY 2: OCRのおすすめはなんや?

昨日はOCRの読み取り精度がどうしようもないところで終わってました。
もうね、何回やっても素人には無理。

そこで、専門家に意見を伺おうというところまでだったんですが、そんな時間に都合のいい専門家はおりません。
私の知り合いも当分会えなさそう。

まあ、大阪―東京間の場所の違いがあるので当然と言えば当然か。
オンラインでも、メタバース上でも会うことはできません。

まあ忙しい方なので仕方ないけど、忙しい方だからこそいろいろ知見を備えていらっしゃると思います。

とはいえ、相談する方も最低限の知識は必要。
よくある質問で、「何が分からないか分からんのですけど教えてもらえますか?」が一番厄介なのは私も経験済み。
説明全部したら「しってました」なんてことも良くある話。

そこで、今日はOCR[について突き詰めたいと思います。
特に利用できそうなAI-OCRについて調べていこうと思います。

OCRは2種類

OCRに関して昨日得た知識。
それは、文書の確認だけなのか、訂正等も必要なのかどうか。
こちらに関して2種類あるということですが、今回に関しては抜き出しを正確にできるかどうかということで調べていきます。

おススメの精度の高いOCRはどれですか?

又こんなあいまいな質問をGPT先生に投げかけてみましょうか。

その回答はこちら。

2021年9月時点での情報に基づいて、いくつかの精度の高いOCR(Optical Character Recognition)ソフトウェアやサービスを紹介します。ただし、最新の情報は変わる可能性がありますので、最新の評判やレビューを確認することをお勧めします。以下は一般的に高精度とされているOCRツールです:ABBYY FineReader:
ABBYY FineReaderは、高精度のOCRエンジンを備えた有名なOCRソフトウェアです。多くの言語とフォーマットに対応しており、文書のスキャンからテキスト変換を効果的に行います。
Adobe Acrobat Pro:
Adobe Acrobat Proは、PDFファイル内のテキストを抽出するために高品質なOCRを提供します。また、PDFファイルを編集する能力も備えています。
Tesseract OCR:
TesseractはオープンソースのOCRエンジンで、Googleによって開発されました。高い精度を誇り、多くの言語に対応しています。さまざまなプラットフォームで利用できます。
Microsoft OneNote:
Microsoft OneNoteは無料で利用できるOCR機能を備えており、スクリーンショットや画像をテキストに変換するのに役立ちます。
Online OCRサービス:
オンラインOCRサービスは、画像やPDFをアップロードしてテキストに変換できる便利なオプションです。一般的なオンラインOCRサービスにはABBYY FineReader Online、OnlineOCR.net、Google Cloud Vision OCRなどがあります。


OCRの精度は、入力データの品質や言語、フォントなどに依存することがあります。重要な文書やプロジェクトにOCRを使用する場合、複数のOCRツールを試し、最適な結果を得ることをお勧めします。

Chat GPTで自動生成

なるほど、なるほど・・・ってちょっとまてぃ。
Adobe Acrobat Pro入ってるやん。

昨日僕が使ってたのもこれじゃなかったっけ?
慌てて調べてみると、私の使っているのはAdobe Acrobatでした。

これってやっぱろPROって入ってない分あかんのやろか?
取り急ぎ調べてみたら、これ


はいってるーーーー!PROやんか!
といううことは私のスキャンの方法が悪いのか、それともOCRの操作方法をミスってるのか。

とりあえずPDFの文字が検索可能にならないとダメなので、Acrobat Pro立ち上げてみる。

・・・やっぱりだめ。
スキャンがいがんでいるからかな?
取り急ぎ確認してみる。

やっぱりだめ。

ただ、GPT先生いわく、精度は高いようなので、専門家の意見を聞くまではこちらを使ってみよう。

OCR読み取りの精度を上げるために

今使っているソフトの精度は比較的高いのかもしれないということが分かったので、PDFの文字を検索できないのはどうも利用方法に問題があるということが分かった。

文字を認識して転写が出来なければ、第一歩目から躓くことになるのでこれは直ぐにでもできるようになりたい。

知識〇の完全初心者なので、Google先輩に聞くしかない。
「OCRの読み取り精度を上げるため」というキーワードで検索。

やっぱり同じ質問する人はいるのね。
スパっと回答が出てきて満足。

これによると、OCRのせいどをあげるため注意しなければならないのは大きく分けて次の通り。
① 余白や傾きのないスキャナーを使用
② 原稿を読み取る際の解像度を上げる
③ AI-OCRの場合はカラー画像(24bit)を利用、従来型の場合は白黒二値データを利用

なるほど、今回私の運転免許を読めなかった理由は、「傾いてる」「カラー」「解像度が低い」の3つの要因が考えられる。

事務所の複合機は能力どうなん?


事務所で使っているのは、「目の付け所が」でおなじみの複合機。

正直場所取って邪魔だけどこのでかさやったら、様々な機能が付いている。結局使いこなせていないOA機器難民は私です。

今後のフローを考えたら、お客さんにスキャンしてもらうことになるかもなので、性能に関しては指定できないかもだけど、とりあえず自分の事務所でできなければ無理だろうということで試してみる。

解像度やずれ、汚れに気を付けるのね、ふむふむ。
とりあえず住民票あるからスキャンしてみようか。

今回の設定は
解像度が600×600dpi
白黒二値
どうなるか楽しみだ。

PDFにしてからは、Acrobatの「補正機能」もフル活用。
最適化に時間がかかるがはじめの一歩は大切、我慢して待つ。

背景が問題

結論から言おう、文字の認識はできなかった。
住民票って文字すら認識してない。

AcrobatのOCRも編集機能も文字を認識しない。
どうしても無理。

よくよく調べてみたら、背景に入ってる地紋が問題のよう。
まずはそれを除去する作業をしなければならないらしい。

それができるのがRICOHのfiシリーズらしい。
これも候補に入れておく必要がある。

住民票の場合はスマートOCRという身分証明書のデータ化のクラウドサービスもあるらしい。
同じようなことしてる人はもういるんだね。そらそうか。

2日目まで来ていまだにOCRで引っかかってる。
ただ、技術的な問題だけなので、専門家に月末ぐらいに合うとドバっと解決しそうな予感はしてるけど、せめてそれまでにはもうちょっと進みたい。

まだまだ完全初心者の下の下の下のままだけど、アドバイスや一緒にしたい人を大募集したい。
知り合いには声をかけていっているので、それ以外の人で興味のある人、楽しそうなこと一緒にしませんか?

この記事が気に入ったらサポートをしてみませんか?