見出し画像

断ナシ!自炊PDF(タテ書き書籍)のOCRは、『Clip OCR』がよか!よか!


前回、記事にしたように、自炊PDF(たて書き)OCRを諦めて、OCRなしで『LiquidText Pro』を使っていますが、効率が悪い!

参考書籍(自炊PDF)のほとんどが「タテ書き」書籍です。
やはり、ヨコ書きに変換した方が、準備に時間がかかっても、成果が上がりそうだ
もう一手間、ヨコ書きテキスト(+図・イラスト)を再度PDF化して、
やっと、『LiquidText Pro』が快適に使える・・・【うん、ほんまやで】

驚異の速さ!ClipOCR~人工知能文字認識アプリ

「OCR日本語アプリ」で「日本語の縦書きや横書き、英語を含めた・・・」とあります。
三ヶ月前にメジャーアップデートで、「価格を見直し、値下げしました」って・・・
また、「1日1時間無料でご利用いただきます」

そのあとは、週240円のサブスクです。
サブスク・キライとしては、抵抗はありますが、「週240円」とは、面白い価格設定です。「PRO」版は月980円・・・これはパス!

他の「OCRアプリ」はタテ書きPDFに弱い!

「PDF element Pro」でのOCRは、「( などカッコ」「数字(例:82など、横並びの半角数字)」「――」など、に出会うと「透明テキスト」が飛ぶ!
文字間に半角空きができる・・・・・・・
と、いっても、「PDF element Pro」はまだマシな方で、ページの「右から左に」変換してくれる。

前回も記事にしたように、「Microsoft Lens」や「Google ドキュメント」では。ページの「左から右に」変換してしまう。
しかし、「PDF element Pro」と違って、数字やカッコなどはきれいに読み取ってくれます。

こういうのを「一長一短」っていうんでしょうね。
Adobe Scan」は、枚数表示(無料版は25枚まで)でパス!

ふと、思いついたのは、「PDF element Pro」、「Microsoft Lens」、「Google ドキュメント」は、「横書き世界」で開発されたものだ!【うん、ほんまやで】

そこで、「縦書き世界」で開発されたアプリを使ってみよう【シランケド】「clipOCR」「写真の翻訳」が該当するらしい。

「写真の翻訳」は広告付き無料  Proはサブスク
「clipOCR」は、お試し1日1時間、Premiumは週240円のサブスク

サブスク・キライとしては、広告付き無料「写真の翻訳」の一択しかなく、クックラックックラ・・・広告表示にもめげず、やってきましたが、OCRの認識に時間がかかる・・・と、思ったら広告が・・・

これくらいなら、「Microsoft Lens」+「OneNote」の組み合わせ(横書き自炊PDFのOCRならこの組み合わせでやっています)
「タテ書き自炊PDFの場合は、ページの「左から右に」変換していきますから、後から行替えをしなくてはならない・・・めんどくさはありますが・・・・全文やるわけではないので・・・アリって時もアリ

ClipOCRのお試し1日1時間を試してみると・・

サブスク・キライの心がうどいた!
驚異の速さ!見開き一ページ(書籍の2ページ分)のOCRが
2〜3秒(?)・・・瞬時にテキスト化される【うん、ほんまやで】

さっそく、「写真の翻訳」用に用意してある、「写真(iOS系)」に入れてある自炊PDFの見開き画像で試してみました。

結果:49ページ(ちょうど章の切れ目)約20分でOCR完了
つづいて、ファイルを開いて、コピぺ・コピぺ・コピぺ・・・・
単純作業が続いて、約30分でコヒペ完了
内1ページダブリでOCR、コピペ追加

「画像」にひと工夫

自炊PDFに連番を打ちこむ

書籍のページ番号は小さい。また、OCR範囲から外れる場合があります。
また、自炊PDFの1ページは多くの場合見開きページです。
「写真(iOS系)」の一覧で判別できるよう・・・・
以上の理由で、自炊PDFに連番を打ちこみます。
具体的には、PDFにページを打ち込みます。

手掛かりのために通し番号をいれます。
「写真」の一覧でページが確認できるように

このような位置(フッター中央)にページをつけると、変換されたテキストの最終行にページの数字が入ります。

これによって、ダブりや欠落を防げますし、カレントページが間違いなく確認できます。

まとめ  サブスク・キライの壁をこえたアプリ

断ナシ!自炊PDFをわざわざ、テキスト化するのは、
『LiquidText Pro』で、複数のPDF(自炊PDF)を縦断的に参照してまとめるタメで、テキスト化に余分な時間や労力はかけたくありません。

そのために、「改行は修正しない」と決めています。
OCRでは、書籍の改行はそのまま残ってしまいます。
これをいちいち修正していたら、「日が暮れて」しまいます。
必要な時だけ、修正すれば済みます。

効率化のためには、サブスク・キライも返上・・・って今日この頃です。


この記事が気に入ったらサポートをしてみませんか?