OCRでGo! 三つの工程

OCRの流れ

 OCRと言いつつ実態は所謂『自炊』によるテキスト起こしなのだが、検索性を考慮してこのままでいくことにする。

 大まかに分類すれば以下の三工程に分けられる。

1.原稿となる文庫/新書をスキャナーにかけて画像データを得る
2.画像データをOCRプログラムにかけてテキストデータを得る
3.テキストデータを校正して完品に仕上げる

 とりあえず真釘くんたちを例に、それぞれの工程に必要な装備を並べてみよう。

1.原稿をスキャンするスキャナー

 オフィス用の複合機にはスキャン機能があるので、まずこれを使ってみよう。

2.OCRプログラムとそれを走らせるプラットフォーム

 Linuxはオープンソースだからフリーで使えるだけでなく、WindowsのようにPC一台につきライセンスが必要ということがない(そういうことにしておいて下さい)ので、

a.外付けのドライブにインストールしたOSから起動できる
b.OSごとコピーした環境を複数同時に使える
c.画面のフォントがキレイ
d.シェルスクリプトという自動実行環境が標準で使える

 OCRプログラムも、オフラインでも使えるオープンソースソフトウェアというと、やはりHPが始めてgoogleが発展させた古兵のTesseract-OCRになろう。Windows版もLinux版もあるので問題ない。

3.テキストの校正ツール

 LinuxにはWindows用アプリケーションをLinux上で動かすためのWineという都合の良いプログラムがあるので、Linux用のみならずWindows用のツールもバシバシ使える。


この記事が気に入ったらサポートをしてみませんか?