見出し画像

縦書き自炊PDFのOCR・・・グーグルレンズを試してみる・・・画像のテキストを読み取って検索結果が表示・・・これGoogleそのもの・・・

たびたび自炊PDFのOCRを記事にしてきました。
「コテンと眠るために大きなフォントで読みたい・・・」とか、
「参考文献をまとめるために『LiquidText Pro』を効率よく使いたい・・・」
こんな目的で縦書き自炊PDFのOCRを追求してきました。
Clip OCR』(サブスク)や『読取革命』(win)、『写真の翻訳』など・・・
また、アプリ付属のOCR・・『PDF element Pro』、『LiquidText Pro』、『MarginNote』・・・どれもこれも一長一短です。

最悪のケースは、日本語縦書きは右上から左へ行を繰っていきますが、左上から右に向かって行を繰っていく(たいてい外国製のアプリ)・・・もう、最悪!

さて、「googleレンズ」はいかに・・・

「googleレンズ」は「画像」をOCRしますから、せっかくの自炊PDFも「画像」に戻すことになります。自炊PDFを1ページづつスクリーンショットを撮るとかします。
・・・メンドクセェって人は『読取革命』でまとめてポイの一択【シランケド】

☆ android版と iOS版の違い・・・android版に軍配!

「googleレンズ」には、当然ですが、android版と iOS版があります。
android版は、「googleレンズ」アプリで、 iOS版は「googleアプリ」となります。
大きな違いは、一度に認識できる文章量です。
android版では読み込める量も、 iOS版では弾かれます。

android版では二段組みの文字量もOK


iOS版はタイムアウト

iOS版では一枚のスクリーンショットを細切れにしてOCRをかけることなります。手間がかかりますが、こうすることによってルビも拾います。
ルビ付き部分OCRには最適です。【これまた・・・一長一短】

☆ ルビの読み込み位置の違い


ルビの表示位置は、本文に混じってきます。ルビが文末に集まって表示されるよりはいいかも【シランケド】


「テキストをコピーしました」

《結果》
たいらか
やわ
心を平にして気を和らげ
げん
むよう
ふう
かん
しょ
しつ
またときどきみ
、言を少なくして無用の事をはぶ
き、風・寒・暑・湿の外邪を防ぎ、又時々身を動かし、歩行
し、時ならずしてねぶり臥す事なく、食気をめぐらすべし。
しょくき
是養生の要なり。
これようじょう
*貝原益軒 『養生訓』(正徳三年・一七一三) 総論下

《感想》
ルビがここまであると、大混乱・・・【うん、ほんまやで】

☆ googleレンズの特徴 スクリーンショットを一枚づつ


『Clip OCR』や『写真の翻訳』などと同様、スクリーンショットを一枚づつ処理していくことになります。

しかし、最近のスクリーンショットが「最新」の順に表示され、その下に「すべての画像」(これも「最新」順)が表示されます。次々とOCRしていけます【うん、ほんまやで】
同じような『Clip OCR』や『写真の翻訳』の次から次へより、効率的です。

引用
しんねん ぎよけい五りどうふう めでた をさ つぎわたくしこと ほんねん 六 しんぶんふ 新年の御慶千里同風 目出度く中納めます、次に私事 本年は当やまと新聞附 ようが入り おはせつけ つき なに かんか! ぎよい かな 録御用掛を仰付られました、就ましては何をがな看客諸君の御意に叶ひさう

ルビと本文の混在

こんな感じでルビと本文混ざった結果・・・あいかわらずルビで苦労【うん、ほんまやで】

横書き・縦書き混在に挑戦!


ちんぱんかた ①奉行所の財務・人事担当の「年番方」をトップに した事務方の 「組役」 ②盗賊などの捕縛 裁判を担 う「吟味方」を始めとした内勤の 「内役」 ③見回り や火消し人足改め等の 「外役」=外回りが主な職務。
職務
素材は麻。 家紋 を付け、小袖は 熨斗目。下に雑 子を装着する。
与力
一日のスケジュール
組役 内役 外役によって時間は 違うが、 事務方ともなると16時 には仕事が終了する。
夕方には勤務終了。 火事や捕り物の緊 急事態には時間外 出勤も。
名0
六つ 18
25騎配置された奉行所の実務担当
五つ
10
12
6時起床。 朝風呂や床 屋など身支 度や身だし なみに時間 を要した。
諸大名からの付け届けは多い
150~200石の下級武士だが
出勤。 部下の同心 たちが8時出勤な のに比べて重役出 勤だった。
も質素な生地だった。 馬に乗ることが許されていたため、
住居
自宅は八丁堀にあった。 八丁堀は与力同心約300 人の組屋敷があった場所。 その中でも与力は冠木門 を構えた立派な外観の屋敷に住んでいた。 自宅に門 を構えることを許されたのは、 与力以上である。
与力の装束
収入
天保年間の記録によると収入は平均 200石だが、 その他付け届けが多い。 約750万円だが、 トップの年番方は 付け届けも多く、 実質4500万円。
石 高
現在の年収換算
日常、奉行所に出勤するときは裃に袴、足袋に草 履という服装。 十手は通常は袱紗に包み懐中に持 っていた。 出役時には火事羽織を着る。

「ここはどこに」とパズルのような状態・・・縦書き・横書き無難にこなす・・・やはり「横書き」が安定しています。

もっとも力を発揮した・・・縦書き・ルビなし部分OCR


あまりの激務のため 在任中に次々と交代
江戸の町奉行所は北町と南町の2 カ所にあったため、奉行の定員は2 人。仕事は登城に評定、罪人の裁判、 行政事務、火消しの統括など多岐に わたり、息つく間もない毎日だった。 このため、北町と南町は1ヵ月ご との交代制で訴状の受け付けを遂行。 つまり、「月番」と呼ばれる勤務を1 カ月務めると、翌月は「非番」。ただ し、非番の月であっても、訴状の処
理はしていたらしい。
日常の業務はまず8時に出勤。 町 奉行の屋敷は、奉行所の中に置かれ ていたため、出勤時間を必要としな い職住一体の生活だった。
奉行所で部下の与力に指示を与え ると、急ぎ登城し、老中や幕府官僚 への報告や打ち合わせにいそしむ。 昼食も打ち合わせの合間に済ませて いたというから、優雅にランチなど 食べていられなかったろう。
江戸城和田倉門近くにあった評定 所に、月6回出向くのも重要なスケ ジュールだった。評定所は、国政に 関する最高意思決定機関であり、非 番であっても欠席することは許され なかった。

《感想》
ルビなし、平易な現代文、さらに部分キャプチャーで文字が大きい場合は
とっても良い結果が引き出せます。

さらに、Googleらしく、この文章の場合は「町奉行」という検索結果がでてきます。


味される件は名 のお家騒動や、他の奉行である寺社 奉行や勘定奉行(町奉行を合わせて 三奉行と称された)も加わる、管轄 をまたいだ複雑な事件だった。江戸 の治安維持部隊のトップを務める町 奉行は、それだけ重い任務だったこ とが分かる。
すみ また、町奉行が管轄したのは「墨 びきない しゅびきない 「引内」と称され、江戸城を中心とし 環状域であった。それに対し、 江 戸府内全体を表す、より大きな環状 域が「朱引内」である。奉行所が取り 締まるエリアは、当時の古地図にも
明確に線引きされ、定められていた。 町奉行の役職の特徴として、在任 期間が極めて短かったこともあげら れよう。
激務だったため、短い期間で交代 せざるを得なかったと推測される。 ただすけ 大岡越前の名で知られる大岡忠相は 在任20年だったといわれるが、例外 中の例外である。
北町・南町の両奉行所の場所は、 北町が江戸城常盤橋御門→呉服橋御 門、南町が呉服橋御門→鍛冶橋→数 寄屋橋御門へと移転。 数寄屋橋にあ った跡地が現在、JR山手線有楽町 駅前に史跡として指定され、当時の 名残を留めている。

この文章の場合は「三奉行」というGoogle検索結果が出てきます。
認識できた文頭の言葉を選んでいるわけでなく(そうであれば「お家騒動」や「勘定奉行」を検索結果にしても良さそうですが、「三奉行」です。

オンラインAIのOCR・・・それも無料・・・

確かにiOS版では一度に認識する文字量が少ないので、画像を分割する手間がかかる・・・この手間をかければ「ルビ」も変換できます。
ページごとにOCRをかけたい時は、Android版を使えばいい・・・ただし、ルビが飛ぶのを覚悟して・・・
一長一短を活かして、『Clip OCR』のサブスクは1週間単位で設定できるので短期集中。『読取革命』は細かい範囲設定を活かしたいとき、ゆっくりのんびりOCRは『写真の翻訳』・・・部分OCR「Googleレンズ」・・・・・

横書き自炊PDFなら『PDF element Pro』で一気にOCRをかけて『LiquidText Pro』へ持っていくか・・ダイレクトで『LiquidText Pro』ヌキ出したい文節だけOCRをかける・・・など一長一短を活かして臨機応変に対応・・・

最近よく使う参考文献がやたらルビが多いので・・・部分OCR「Googleレンズ」・・・・・ということになりました【うん、ほんまやで】



この記事が気に入ったらサポートをしてみませんか?