見出し画像

断なし! 自炊PDF・・・『PDF element Pro』+『LiquidText Pro』、タテ書きPDFはばらつきが・・・・それでもめげず二段組・三段組もOCR

ほとんどの自炊PDFがタテ書き書籍なので、さんざん苦労してきました。

それにもめげず、断なし! 自炊PDFに『PDF element Pro』でOCR化をしました。
というのも、『LiquidText Pro』を活用するには、OCR化してある方が・・・言ってしまえば、不確かなOCR化でも・・・有効です、【うん、ほんまやで】


『LiquidText Pro』が活躍する場合・・・

『LiquidText Pro』で、断なし! 自炊PDFを資料として参照するのは数冊にまたがって参照する場合です。
断なし! 自炊PDFを参考資料として一冊の参照なら、「GoodNotes」、「Noteshelf」や「Xodo」で十分だし、iPadの二面表示(Split View)を使えば、例えば「メモ」に引用やコメントを集約できます。今までさんざん使い慣れた手法【うん、ほんまやで】
でも、参照する資料が数冊にまたがっている場合は、『LiquidText Pro』一択です。【シランケド】

画像1

『LiquidText Pro』がさらに活躍する・・・OCR(透明テキスト)付PDF

『LiquidText Pro』を活用するには、OCR化してある方が・・・言ってしまえば、不確かなOCR化でも・・・有効です、【うん、ほんまやで】

自炊PDFは、「OCR化」することが目的ではなく、「読む」ために、場合によっては参考資料として活用するために書籍をPDF化しているわけで・・・

OCR化」に過度の時間的、肉体的負担をかけるべきではない!

また、『LiquidText Pro』の導入も、効率よく「読む」ためです。

この2点を抑えて、『PDF element Pro』での「OCR化」を自動で少々、不確かであっても行うことにしました。

タテ書き2段組、3段組は、段の空きがあればOK!

『PDF element Pro』での「OCR化」
「OCRテキスト認識」の「方法」には2種類あります。
「検索可能な画像」と「編集可能なテキスト」です。
前回の記事は主に「編集可能なテキスト」についてです。


画像2

課題だった、2段組、3段組の結果です。
『PDF element Pro』での「OCR化」
「OCRテキスト認識」の「方法」で「検索可能な画像」

画像3

画像4

見た目は、PDFで、透明テキストを選択できます。

というのは他 でもない、 この 志道 軒、 じつは文耕 と
いう男 をよく知 っておるのさ。 一時は、 兄 弟 のように
交 際 していたこともあるぐらいでの。
あれはいつであったか、…… そう、 五年 前の夏 だっ
たかな。 ここで夜 講 釈 を終 って帰 ろうとしていると、
ひとりだけどうしても引 き揚 げようとしない男 がおる。
「これ、 志 道 軒 の夜 講 釈 は終 ったぞ。 いい加減 にし
て帰 りなさ

タテ書き二段組でも、段の空きが十分あれば、透明テキストが張り付きます。

ところが・・・『LiquidText Pro』では・・・ナンジャ!原因不明!

画像5

『LiquidText Pro』でワークスペースへ持っていくと、「漢字」が抜けている・・・

いつもは、下の画像のように漢字もかなも拾ってくるのに・・・【なんでやなん】

画像6

それにもめげず、三段組の結果・・・・

画像7

にも悲 痛 な顔 が、 彼 らのいる方 へ、 情 けな
げに旋回するときだ。
ジジさン 「そうそう」 と、 思 い出 して、 顔
をしかめながら、
「斬 られて死 ぬるのが…… 」 移動 倒 れて
くるエッ? アア—— 小 夜 悩 乱 の姿 にな
って、 「新、 新三 郎 さまッ」 うめく如 く、
呼 んで、 此 方 へ来 かけたが、 ガクリ顔 をそ
むけると、 それは絶 望 を意 味 する 血 まみ
れの 争 い をきょう が日 まで、 いまのいま
迄、 いまも尚、 争 い続 けて来 た それだ
けに、 爺 のコトバの、 どぎつさよ! 足 も
とにかねて脅 ゆる大 穴 が、 スッポリあいた
その心、 頭 が、 めまいが、 クラクラする。
しかも、 気強 い! 新三郎 の、 コトバが、
虚しい笑いをふくンで聞える。

三段組も段と段の間に十分な空きがあれば、うまくいきます。

NGのケース・・・

画像8

歴史年表です。段と段の間に間隔がなく、罫線が入っています。
この形式では、『PDF element Pro』のOCRは機能しません。
ちなみに「google drive 」+「googleドキュメント」でやってみると、
段を無視して、タテ一行で認識・変換してきます。
それを整形するのには、苦労した・・・【うん、ほんまやで】

まとめ

OCRがうまくいかないと、これでもかと・・・・・
『PDF element Pro』での「ツール」→「OCRテキスト認識」の「方法」で「編集可能なテキスト」で・・・
見た目は意味不明!の画面になりますが、めげずに「テキスト」があるらしい部分を選択→コピーWordやPageにペースト→→くっくらくっくら、修正する。

例えば、書籍をテキスト化する仕事であれば、これもアリでしょう。

自炊PDFを資料として、必要に応じて読んでいき、チェックしたり抜き書きメモしたり、コメントしたりする・・・日常に・・・苦労して時間をかけて正確な「テキスト」化に意味があるのか、よく考えて・・・たいてい無意味!【うん、ほんまやで】

自炊PDFの多くは参考資料としての利用を目的としています。
そのために『LiquidText Pro』は、有効なツールです。それを
さらに活かすには、OCR(透明テキスト)付が有効で効率よく読み進められます。

何よりも効率よく読み進めるために、短時間で最低限のOCR(透明テキスト)化できる
『PDF element Pro』の「OCRテキスト認識」を利用しています。







この記事が気に入ったらサポートをしてみませんか?