見出し画像

2021/12/31 21時53分追記 兄のMacならできました。 【謝罪】pdfファイル統合するとデータが壊れて、コピペ、検索できなくなりました。

検証せずに書いてすみません。理論上は可能と思って書いたらできませんでした。


原因2:フォント埋め込みされたPDFで文字コードが取得できないフォントの埋め込み処理をすると、文字はグリフ(線画の一種)で表します。文字の並びは、文字コードの並びの代わりにグリフID[4]で表します。検索できるためには、PDF内にグリフIDを文字コードへ置換する対応表が保存されていなければなりません。もし、対応表がないときは、文字コードが取得できないので検索できません。☞ 原因2の詳細と対応



上のリンク

4. PDFで文字が検索できない(原因2の詳細と対応)
PDFを作成するソフトウェアの多くは、フォント埋め込み機能をサポートしています。
フォント埋め込みを指定すると、文字列の並びは原則として文字コードではなく、グリフIDと呼ばれる番号で表現されます。
グリフIDは文字コードとは異なるものです。このため、グリフIDがどの文字コードに該当するものであるかを示す対応表(ToUnicode CMapなど)が必要となります。

PDFに対応表が設定されているかどうかは、Adobe Readerで文字を選択してコピーし、Windowsのメモ帳などに貼り付けることで確認できます。
PDFに対応表がない場合は、貼り付けた文字が化けて「?」などになります。

フォント埋め込み時に対応表を一緒に保存することはPDF仕様上の必須事項ではないため、PDF作成時に対応表が作られないことがあります。

PDFの有効活用のためには、PDF作成時には対応表が保存されていることを確認しましょう。
対応表が保存されていないPDFを文字検索可能にするには、以下の2種類の対応が考えられます。

元の原稿が手許にある:対応表を付加できるPDF作成ソフトウェアを使用して、フォント埋め込みされたPDFを作り直す。
元の原稿が手許にない:現在のPDFにOCR処理を行って文字コードを付加し、別のPDFとして保存し直す。
2)で対応する場合には、原因1と同様にOCRが使用可能なソフトウェア製品が必要です。

OCRを使った処理ではPDFをいったん画像に変換した上で文字認識を行いますので、元の文字を完全に認識できる保証はありません。
しかし、文字検索が可能となることで得られるメリットは大きいものがあります。
PDFで文字検索を有効活用するには、認識精度が高い適切なソフトウェアの選択が必須と言えるでしょう。


上のリンク

でもせっかく統合したのだから、Googleドキュメントとか使って、OCR処理したらうまくいくのでは?

と思ってやってみると、全部文字化けした。

プレビューで検索は諦めたほうがいいのかな?

俺が諦めるのを、諦めろ!!!

助けてー


2021/12/31 午後9時54分追記

兄のm1,mac OS big surだとできました!!!
 兄に統合したファイルを渡してもファイル内検索できたし、元ファイルを渡して、統合してもらいそれを私のMacに保存して検索したら、できました。
 どうやら私のMacのフォント設定がおかしいのかもしれないです。そのファイル内テキストをコピペすると文字化けする。おかしい。(泣)


頂いたお金はすべて本に使わさせていただきます。