見出し画像

PDFメタ編集の前にOCRの変革が来た

PDFの一部となったOCR機能

 PDFが普及するまでパソコンで文書を作成するとき、ほとんどの場合そのゴールは印刷物でした。その過程で作成できるようになったPDFファイルは、紙の印刷物の代わりにインターネット経由で受け渡しできるという便利さから、印刷物の校正に使われはじめました。
 その後インターネットが普及するにつれ、印刷物のイメージそのものだったPDFファイルは、ついに印刷物の代わりとして流通するようになりました。さらにiPhone・iPadが登場すると、PDFファイルはインターネットやパソコンから持ち出して持ち歩けるデジタルの紙になったといえます。

 PDFファイルが印刷物の代わりに流通するために、PDFファイル自体もよりデジタルの紙に近づくための進化を遂げました。それはPDFファイルの中に印刷物の文字情報を内蔵することでした。
 PDFファイルは一見画像に見えますが、写真などの画像だけでなく、テキスト情報も保存できる複合的なファイル形式です。OCR処理されたPDFファイルは閲覧しながら画像の中の文字をテキストとして選択することができます。

 また、単なる印刷物のイメージのPDFファイルであっても、Google Drive や One Drive 、Adobe DCなどの文書管理型のクラウドサービスにアップロードすると、OCR機能が働き、旧来の印刷物のイメージだったPDFファイルに文字情報を追加させることができます。このようなOCR機能がクラウドサービスで提供されたのは、元は印刷物のイメージであったため、PDF形式が高解像度であったことと、特定の機種やOSに依存しないファイル形式であったためです。

クラウドサービスで提供されるOCR機能

 クラウドサービスでOCR機能が提供されるというのは、画期的なことでした。従来はOCRによるドキュメント管理は、高解像度のスキャナーと高性能なパソコンを組み合わせで実現していましたが、それがiPhone・iPadをインターネットに接続してPDFファイルをアップロードするだけで利用できるようになったということは驚くべきことです。

 さらにOCR機能を提供するクラウドサービスでは、印刷物のイメージのPDFファイルだけでなく、「AdobeScan」や「Office Lense」などのScanアプリを通じて、iPhone・iPadのカメラから撮影した文書のイメージからOCR処理をする展開になっていきました。

iPhone・iPadのデジタルの紙は300dpi相当

 これはスマホのカメラが高解像度になった結果でもあり、現在のメガピクセル級のカメラを搭載したiPhone・iPadでA4サイズの書類を撮影すると、画面に表示された書類は、紙に印刷された書類とほとんど同等の品質で閲覧できます。

 画面の小さいiPhoneでは、細部を読むのにさらに指でピンチアウトするなどして引き伸ばす必要がありますが、手ぶれしたりしていなければ、細部の文字までしっかり判読できるはずです。さらに、画面の大きなiPadならば、画面がそのまま印刷物とほぼ同じ解像度なので、画面に表示された書類は、あたかもデジタルの紙に表示されているように閲覧することができます。
 iPhone・iPadのカメラで撮影した書類は、OCRなどでも文字認識できます。いったんOCRすれば、画像ではなく、ワープロでタイプしたのと同じテキスト情報として利用できます。OCRで処理する場合は、スキャニングする解像度によって読み取り精度が異なってきますが、一般にはファイルサイズなど考えて300dpi前後が推奨されています。

もう1つのOCRの変革はスマホのカメラから来た

 iPhoneの高解像度のカメラで撮影した写真は、そのままOCRにも利用できる解像度なので、撮影した写真を紙に印刷しなくても、レティナ・ディスプレイに表示すれば、Scanアプリを使って画面からOCRすることも可能です。

 それならいっそクラウドなどを使わずに、iPhoneなどの[カメラ]アプリなどを使って撮影した文字の写った画像から直接OCR処理を行なったらどうだろうと考えるOCRアプリも登場してきました。OCRによるドキュメント管理をいつまでも大きなシステムとしてとらえていては、この発想はなかったように思います。
 私にそれを気づかせてくれたのは「OCR」というそのまんまの名前の無料のアプリでした。文書を撮影した画像をOCR処理してクリップボード経由でテキストを取り込むというシンプルな仕組みでしたが、思いの外に認識率が高く、思わず唸ってしまいました。結局はOCRは認識率なのです(この「OCR」は最近ではプロ版に代わり、広告を非表示にして有料アプリになりました)。
 このアプリと同じ手法を採ったのが、一太郎やATOKのジャストシステムが発表した「一太郎Pad」というテキストエディタです。カメラや[写真]アプリから取り込んだ画像をOCR処理して、文字入力ができます。

カメラで撮影して文字入力する新世代テキストエディタ一太郎Pad

 Macの画面を撮影して一太郎Pad のこの変換率はなかなか。

 これらのアプリでは、とりあえず撮影だけしておけば、必要な時にOCR処理ができます。実は、OCR処理は認識率100%ということはあり得ないので校正が必須な作業です。
 このため、クラウドでPDFファイル毎一気にOCRするよりも、必要なテキストをスクーンショットから必要なところだけいちいちOCRで認識させるのは、手間が掛かるようで実は実用性が高いと思います。
 ということで、無料ということもあり、最近は「一太郎Pad」というテキストエディタを常用しています。不満といえば入力したテキストを「共有」できる先が案外限られているところです。
 もといテキストエディタのデータをそのまま渡せるPDF編集アプリは #Notability くらいしかないので、今は文字入力用のテキストエディタとして一太郎Padを重宝しています。

この記事が参加している募集

おすすめギフト

この記事が気に入ったらサポートをしてみませんか?