自炊した本のポスト処理の話

2020年5月21日 20:01

こんにちは！

今回の話は、先日書いた紙の本の自炊の話と、ジャンクPCの話の続きです。ジャンクPCの記事にも書きましたが、そもそも家にPCを導入しようと思った理由の一つが自炊した書籍の処理・管理をするためです。ということで今回は、pdf化した書籍をどのように処理したのかについて書いていきます。

そもそも、自炊書籍の「処理」というのがあまりピンと来ないかも知れません。正直言って絶対に必要なのかと問われると必ずしもそうとは言えませんが、やっておくと後々便利なので今回はそれを行ったわけです。具体的に行った処理は

1. pdfの画像に文字認識をかける
2. pdfファイルのサイズを圧縮する

の２つですが、特に重要なのは1の文字認識です。本を裁断してPDF化したは良いものの、それはあくまでも本を画像として取り込んでいるだけなので、パソコン側は文字を文字として認識していません。もちろん、そのままでも読むことはできるわけですが、このpdfに対して文字認識をかけてやることで、文章内の文字列を検索ができるようになり、利便性が一気に上がるというわけです。

特に僕ははてなブログで「読書コラム」や「エッセイ」などの文章をよく書いていて、本に書いてある内容を頻繁に参照したり引用したりするので、そういうときにキーワードですぐに検索できるのはかなり重要です。この「検索」という機能は紙の本では基本的にはできないことなので、確認したいところをピンポイントで探せるというのは電子化における大きなメリットの一つだと言えるでしょう。

今回文字認識のために使ったソフトは、グラフィック系ソフトで有名なAdobe社から出ている「Adobe Acrobat pro DC」という有料のpdf編集ソフト。無料版の「Acrobat Reader DC」は多くの人にとって馴染み深いと思いますが、そのグレードアップ版と捉えていただいていいと思います（余談ですが、adobeのpdfビューワ•エディタは名前がややこしくて非常にわかりにくいです）。

この「Adobe Acrobat pro DC」のお値段は、年間契約で20,000円弱、月々契約だと2600円くらい（2020年5月現在）。便利は便利ですが、サブスクリプション費用が結構高く、個人が継続的に使うようなものではないかなぁというのが正直な感想で、今回も１ヶ月のみのピンポイントでの利用になります。よっぽど頻繁に必要な機能を使うのでなければ、必要な時に必要なだけ使うのが賢いとは思いますね。ちなみに、この製品には7日間の無料お試し期間があるので、ちょっと使うだけならそれで事足りてしまうかも知れません(今回は残念ながら7日間で作業完了できず…)。

無料で文字認識できるソフトがあれば良かったのですが、縦書きの日本語という世界的にはマイナーな言語の認証ができるソフトは限られてしまうので、こればっかりは仕方がないですね。ちなみに、日本語の文字認証ソフトとしてはパナソニックが出している「読取革命」というソフトもあるらしいのですが、こちらは買い切りで約10,000円ちょっと。読み取り精度がどの程度かは分かりませんが、利用頻度を考えるとAcrobatを単月で使う方が安上がりですね。

ちなみにですが、このAdobe acrobatは現状の僕のメインPCであるLinuxでの動作をサポートしていません。「Wine」と呼ばれる、Linux上でwindowsのソフトウェアを動かすエミュレーターのようなものもありますが、残念ながら現状僕のPCでは「Wine」はなかなかうまく動かず…(詳細な原因は不明ですが、どうやら32bit版のライブラリ関係で不具合があるようです)。そこで出てくるのが、前回の記事で書いた「仮想マシン」だというわけです。わざわざ重いWindow 10を仮想マシンで導入したのは、これがやりたかったからなのです。

というわけで、仮想マシンでacrobat DCをダウンロードして、ポスト処理の作業を行いました。acrobat DC自体は仕事では日常的に使っているので使い方などは問題なし(バージョンがちょっと違って多少迷ったけどw)。具体的には「テキスト認識→圧縮して保存」をアクションウィザードに登録して、複数のpdfを順番に処理していきます(保存する時は、ファイル名の末尾に「_」を入れる設定にして、オリジナルのファイルも残します)。

これであとは放置すればOK……となれば良かったのですが、メモリ容量の問題からか、一度に大量に処理しようとすると途中で動作が停止してしまいます。色々と試してみましたが、一度に処理できる量はせいぜい5〜6冊程度。もともと搭載メモリが4GBしかない上、そのうちの半分も仮想マシンに割り当てられないので、どうしてもメモリが足りなくなってしまうんですね(それにしても、adobe製品は全般的にメモリ食い虫な気はします)。

だいたい250ページくらいの一般的な書籍を処理するのにかかる時間は1冊あたり30〜40分程度。なので、3、4時間に一回くらいは手動で設定し直さなきゃいけないわけで、この作業のためにやたら時間がかかってしまった感は否めません。在宅勤務中で、頻繁に自分のPCに触れる環境だったのがせめてもの救いです。

そんなこんなで時間がかかりつつも、なんとか今回自炊した約340冊について文字認識とファイル圧縮が完了しました。文字の検索はまだそこまで本格的には使っていませんが、ちょっと試した限りでは悪くない感じです。

上の図は、「完全教祖マニュアル（筑摩書房）」という新書で「食事」で検索して一番はじめにヒットした場所です（食事の部分が緑でハイライトされているのがわかると思います）。これは一つの例ですが、宗教における食事制限の意味あいを調べたいときには、こんな感じで検索をかけて、その前後を読めば大体の内容を把握することができるというわけです。

そして気になる認識精度ですが、現状試している限りではなかなかいい感じです。百聞は一見にしかずということで、実際に認識した文章を見てみましょう。

ちなみに、食物規制には社会学的な意味もあると言われています。そちらの解釈によると、食物規制をすれば異教徒と食事を共にすることが難しくなり、それに伴い友人作りや結婚が難しくなるので、同じ宗教の信者同士で交友や結婚をすることになる。

こちらが先程の「完全教祖マニュアル」のスクショの最終文からコピペしたものです。ところどころ不自然なスペースは見られますが、これを見る限りではかなりの精度で認識できていると言えるでしょう。もしかしたら、認識のミスで検索時にヒット漏れが起こるかも知れませんが、実際に使う場面を考えると、複数ヶ所で使われているようなキーワードで検索するケースが多いと思うので、そこまで致命的にはならないと思います。

そして、ファイルのサイズですが、これはスキャン時の生データに比べて大体半分くらまで減らすことができました。ただ、これは画質の劣化とのトレードオフなので、なかなか難しいところではあります。上記のスクショくらいの画質で約240ページの本のファイルサイズは10MBくらい。これをどう取るかは人それぞれかなぁとは思います（生データはもっと画質が良い分、サイズは20MB程度です）。個人的には、実際にiPadで読んでいて、画質に粗さは感じるものの、読む分には特に気にならないレベルかなという印象。

とまあ、こんな感じで自炊したpdfファイルの文字認識とファイル圧縮ができました。今回改めて思ったのは、画像の文字認証と言うのがなかなかプログラム的に難しいことなのだなということです。いろいろなフリーソフトが開発されているLinuxではありますが、こればっかりはなかなか難しいようで、Adobe社の技術と仮想マシンの力に頼ることになりました。まあ、すんなりとは行かない分、色々と試行錯誤しなければならなくて、それはそれで面白いという側面もあるんですけどねｗ

自炊に関しての残りの課題は、それをどこに保管するのか？とどうやって閲覧するのか？の二点ですね。これについても、すでに色々とやっているので、おいおい書いて行きたいと思います。

それでは、また！

この記事が気に入ったらサポートをしてみませんか？