pdfのデータだけで持っている本・資料をwordに変換する方法
何をいまさらと言われそうですが、pdfのデータだけで持っている本をwordの文字データにしたくてその方法を探して実践してみましたので、まとめてみます。
もしpdfのデータに文字情報が含まれている場合は、pdf全体をコピーして、wordにペーストすればそれだけで、wordで使える文字データになります。
しかしpdfに文字情報が含まれておらず、そこにある文字が単に画像データのときは上の方法が使えません。そういう場合にどうするかというのがこれからまとめる方法です。
いわゆるOCRと同じことをするわけですが、ここではOCR用のソフトなどを使わずに、それをする方法をまとめてみます。
OCRの説明はたとえば下のサイトをご覧ください。ここの説明では、「OCRは、Optical Character Reader(またはRecognition)の略で、画像データのテキスト部分を認識し、文字データに変換する光学文字認識機能のこと」。
それでは「pdfのデータだけで持っている本をwordの文字データにする方法」です。
1. Googleにログインして「Googleドキュメント」を開く。
2. 「新しいドキュメントを作成」で「空白」を選ぶ。
3. 「ファイル」→「開く」を選ぶ。
4. 「アップロード」を選ぶ。
5. 読み込みたいpdfファイルをドラッグするか、選択する。
6. pdfが開いたら、「Googleドキュメントで開く」を選ぶ。
7. 「Googleドキュメント」の形式に変換されたら、「ファイル」→「ダウンロード」→「Microsoft word (.docx)」を選ぶ。
8. ダウンロードされたファイルをwordで開く。
9. 文字のフォント、大きさ、色などや、行間などがまちまちになっているはずなので、ページ全体を選択しつつ、wordの「ホーム」の「フォント」「段落」のところで文字、行間をそろえる。
あとはきちんと読み込めていない文字、読み誤った文字を修正したり、余分なスペース、改行などを消したりしなければなりませんが、かなりの確率できちんと読み込めていました。それらの作業が嫌になるほどではないレベルです。
ロシア語も読み込めましたし、縦書きの日本語もすんなり横書きのwordデータになりました。
いったい誰にどれだけ参考になるか分からないのですが、OCRソフトが手元にない、という方はどうぞお試しください。
この記事が気に入ったらサポートをしてみませんか?