見出し画像

0218:書籍の自炊

 昨日「あるソフトウェアが必要にな」ったと書いた。具体的にはOCRソフト「読取革命」だ。もともとパナソニックが開発し、最後のVer15を購入したものの機能が多くて退職前には使い方を覚える時点で止まっていた。時間ができたのであらためて使ってみようと思ったところ、販社がソースネクストに移りバージョンも16に上がっていた。

 そもそもなぜOCRが必要なのかといえば、主として家業の参考資料を検索可能な電子書籍形式に変換したいからだ。そのためには次の三段階の手順が必要になる。

1.スキャナで本をPDF(またはPNG)データ化する

 本をスキャンするのはいわゆる「自炊」だ。そこにはいくつかの選択肢がある。

 まずひとつは、本を裁断してシートフィーダーで一気に読み込むこと。最小限の労力と短い時間でスキャンデータを得るなら、この手法になる。真っ直ぐ裁断できればスキャン時のページ歪みを防げるのも大きなメリットといえるだろう。ディメリットは、本を破壊してしまうため、元の状態に戻すことはまずできないことを覚悟する必要があること。もうひとつは本を裁断できる裁断機の調達だ。

 本を破壊したくなければ、非破壊スキャナを選ぶことになる。フラットヘッドスキャナなら安価に入手できるし、プリンタを購入する時に複合機を選んでいて既に自宅にある人も多いだろう。ただし、ひとつひとつページをめくり、逆さに押しつけ、ボタンを押し、またひっくり返してページをめくる……という手順を延々と繰り返すことになる。分厚い本の場合はページが歪むことも避けがたい。

 これをクリアするのが、本を開くだけでカメラがページを認識するタイプのスキャナだ。富士通のScanSnap SV600が有名どころだろう。

 SV600の導入も考えたけれど、結局私が購入したのはCZURのET16 Plusだ。

 これはなかなかの優れもので、ページめくりを検知して自動でスキャンしてくれる。おかげで自炊がはかどり、重たい本を持ち歩かなくてもiPadでPDFを読めるようになった。

 でも、それでは物足りないんだ。検索したい。文字の大きさを自由に変えたい。kindle OASISで風呂の中で読みたい。

2.OCRによりテキストデータを抽出する

 そこでOCRが必要になる。ET16にはOCR機能があるけれど、変換効率の問題がある。ACROBATのOCRは優秀だが、縦書きに対応していないのが致命的。私の自炊したい本は縦書きが大半なのだ。調べると、そもそものOCRとしての性能の高さと縦書き対応の点で、私の利用方法では読取革命一択と判断した。で、バージョン16を導入した次第。

 ひとまず250ページほどの縦書き専門書(PDF化は既に済ませていた)を読ませ、認識枠をちまちま設定し、文字認識させてみた。250ページが十分かからなかった。最初の方のページを確認すると、95%くらい正確に認識してくれている。これは有り難い(が、古い本は認識誤りが避けられないだろうな)。

 ひとまずここから誤字を潰し、図表などを画像データ化する手間がいる。

3.テキストデータを電子書籍形式に変換する

 これは将来的課題。ひとまず一太郎で試してみようと思っている。


■本日摂取したオタク成分
『ケンコー全裸系水泳部ウミショー』第13話、まあしっかり盛り上げて終わったね。エンディング曲流しながら描写してたのはこの後の原作の展開かしらん。『ひげを剃る。そして女子高生を拾う。』第4話、安心して観れる物語作り。『オッドタクシー』第3~4話、これは面白いなあ、特に4話。今期はVIVYとか面白いものが他にもあるので単純にどれが一番とかいいづらいが、本作の個性は頭抜けているよ。まず脚本の良さ、そしてそれをアニメーション化するセンス。

この記事が気に入ったらサポートをしてみませんか?