見出し画像

紙の書類に検索をかけたい

家が書類で埋まるじゃないですか。

いや必要な書類はいいんですよ。契約書とか保険証書とか…卒業証明書とか…そういうのはいい。広告もリサイクルに出すからいい。問題は「この情報はいつか必要になるかもしれないからとっておきたいが紙の形である必要はない」紙の書類です。こういうのをSpotlight検索可能な形でストレージに入れておきたい。

理想を言えば家のポストはスキャナになっていてほしい。お手紙が入ると自動で開封スキャンOCRインデックス日付PDF化して、これ広告だから捨てとくねしてほしい。ほしいが現状そうなってはいないので、私がやるしかない。

ここで世の中には既に、画像を書類にしてくれる無料のサービスはあるわけですよ。Google documentとかEvernoteとかね。しかし家に届くお手紙は下手すると個人情報が入っているしあまりクラウドに送りたくない。有料のOCRソフトもあるけど…事業主とかではないのでそこまでではない…!しかしOCRはしたい!

そこでAutomatorとTesseractを使うことにしました。くわしい手順は下記を。

画像をテキスト入りPDFにするAutomatorワークフロー

これでスキャンしたJPEGをフォルダに入れたりアプリにドラッグ&ドロップするだけで透明なテキストが含まれたPDFになるので、それをストレージに溜め込んでいけば内容でSpotlight検索が可能になる!まあ精度の問題で誤字が入ってくるけど…

この調子で「この情報はいつか必要になるかもしれないからとっておきたいが紙の形である必要はない」紙の書類をリサイクルしていこう。でもそろそろmacOSも標準で画像中の日本語認識入れてくると思うんだよな

この記事が気に入ったらサポートをしてみませんか?