見出し画像

FAXのFAXはやめましょう 「0044夜 無料OCRで遊んでみた!」

出入りしている団体の事務所で、一生懸命Faxを送っていましたので悪気なく「何を送っているの?」ときくと、「AさんからもらったFaxをBさんとCさんとDさんに送っている」との話しでした。Aさんも、もともとのワープロ打ちの書面をFaxで受け取ったと言います。つまり、「元のワープロ打ち出し書類⇒(Fax)⇒Aさん⇒(Fax)⇒出入りしている事務所⇒(Fax)⇒Bさん・Cさん・Dさん」の流れです。「スキャンしてメール添付で送らないと読めないんじゃないの?」と言いましたが、「もう送ったからスキャンはしなくて良いよ」との返事。
今後のために、「FaxのFax」に代わる「スキャンとOCR」の体制を作らなくちゃと思いました。

無料のOCR 「Tesseract(テッセラクト)」を使ってみる

OCRは、「光学文字読み取り」のことです。マークシートの読み取りが昔からありましたが、今では画像ファイル中の文字(列)をテキストファイルに出力するものがあります。Linux用の無料のものがあると良いなぁと思っていたら、オープンソースのTesseract(テッセラクト)というものがありました。Windowsでも使えるようです。
インストールの方法や使い方は、ここでは書きませんが、インターネットで調べればすぐ出ると思いますので、興味のある方は挑戦してみてください。

悪ふざけの例題を作ってみました

画像1

テスト読み取りの画像は、上のものです。「電子メールで送れば良いのに」とFax文化を揶揄しての文面にしてみました。OCRでのテスト結果の前に以下文字(テキスト)でも示しておきます。(右揃え、中央揃えはしていません)
------------------------------
2021年2月13日
Fax通信
関係各位
任意団体ほげほげ団
デジタル化推進のお願い

 いつも大変お世話になっております。21世紀になって20年経過しています。和暦では令和になりました。今更Faxの時代ではないと言われています。
 つきましては、今後の通信は基本的に電子メールでしていただきたくお願い申し上げます。

メールアドレス
info@hogehoge-group.ne.jp

 なお、電子メールでご連絡くださる場合は念の為、お電話にてその旨ご一報いただけますと幸いです。(事後でも結構です。電話 03-xxxx-xxxx)

 今後ともなにとぞよろしくお願い致します。

以上
------------------------------
(テスト用文面ここまで)

【テスト1】かなりの成績だと思いました

では、早速OCRの読み取り結果を発表します!
------------------------------
2021年2月13日



関係各位

任意団体ほげほげ団

デジタル化推進のお願い

いつも大変お世話になっております。21 世紀になって 20 年経過しています。和暦では令和になりま

した。 今更 Fax の時代ではないと言われています。
つきましては、今後の通信は基本的に電子メールでしていただきたくお願い申し上げます。



メールアドレス

info(⑦hogehoge-group.ne.jp

なお、電子メールでご連絡くださる場合は念の為、お電話にてその旨ご一報いただけますと幸いで
す。 (事後でも結構です。電話 03-xxxx-xxxx)

今後ともなにとぞよろしくお願い致します。
以上
-------------------------------
メールアドレス内の@マーク以外読み間違いがほとんどありませんでしたので、改行の行数を反映してみました。

【テスト2】わざと劣化させた画像の読み込み

画像2

Faxで送られてきた書面をOCRで読み込むという実用を考えると、最初の「きれいな」画像のテストでは実力をはかることができません。そこでわざと劣化させてFaxを再現したテストをしてみました。まずは、ちょっと「かすれさせた」上の原稿です。この劣化テストを意図して書体(フォント)はゴシックではなく、劣化に弱いと思われる明朝を最初から指定していました。
------------------------------
2023 年2月8是
ag
Fax 通信
関係条位
任意団体ほぼほげ団
デジタル化椎進のお願い

いらゃ大変お世状になっでおります。 21 世
した。今補Fax の時代で対ないと言われてでいす。
できましては、今化の通信は メールでしていただきたてお願い申し上げます。

なって 20 年経退しています。和麻では令和になりま

メールデドレス
Io人hogehoge-WOMB_DSJD

なお、電学メールでご党絡くださる場谷は意の旋、お電話にてその赤ご一牧いただけはますと六いで
すす 【理後でも守構です。 電話 03cwskxcxxsy

今擬ともなにとをよろしくお原い数します。

Sd
------------------------------
かなり成績が悪くなっています。なぜか順序が変わってしまったところもあります。それでも部分的にはそれなりに読み込まれていて、全部手打ちするよりマシかもと思わせるかもしれませんが、普通に考えれば合格点に達しているとは言いにくいですね。

【テスト3】さらに劣化した画像の読み込み

画像3

さらに劣化させたサンプルを用意してOCR読み込みをしてみました。
------------------------------
2021 年2月遇月

病人音他

任休江住ほほけ団

“ジタル化推進のお願い

いうも お 人なっおり なって 20 補綴六していす。和礎やは谷和になりま

ルでしでいただきたくお原申し上げます。

メールグドセス
IANO人PagehggK-MRAMDBAD

あおお、和電子メールでビ連絡くださる場宮人は迄の謝、お電話にてその普ご一邊いただけはますと半いで
すす 【(胃稀でも寺村です。電絡 03cwwsxrwxkt

今挫ともなにとよるてしくお願い数します。

にまり
------------------------------
テスト2とテスト3の画像の差は、筆者の見た目ではそれほど大きくないのですが、画像処理ソフトGIMPの「ノイズ」処理のパラメータを数字で確認しながら差を作ったものです。全く実用に耐えない結果となりました。

2021年2月13日のコメント

実は、冒頭に書いたFaxもスキャンしてテストしてみました。掲載するわけにいきませんので、今回の記事では取り上げませんでしたが、結果は意外に良かったです。テスト2よりかなりマシだけれど、テスト1より漢字の誤認識が散見されるといったところでしょうか。それでも本格的にOCR導入を提案しようかどうか、悩みますね。
では、また明日。

この記事が気に入ったらサポートをしてみませんか?