pdfのデータだけで持っている本・資料をwordに変換する方法

何をいまさらと言われそうですが、pdfのデータだけで持っている本をwordの文字データにしたくてその方法を探して実践してみましたので、まとめてみます。

もしpdfのデータに文字情報が含まれている場合は、pdf全体をコピーして、wordにペーストすればそれだけで、wordで使える文字データになります。

しかしpdfに文字情報が含まれておらず、そこにある文字が単に画像データのときは上の方法が使えません。そういう場合にどうするかというのがこれからまとめる方法です。

いわゆるOCRと同じことをするわけですが、ここではOCR用のソフトなどを使わずに、それをする方法をまとめてみます。

OCRの説明はたとえば下のサイトをご覧ください。ここの説明では、「OCRは、Optical Character Reader(またはRecognition)の略で、画像データのテキスト部分を認識し、文字データに変換する光学文字認識機能のこと」。

それでは「pdfのデータだけで持っている本をwordの文字データにする方法」です。

1. Googleにログインして「Googleドキュメント」を開く。

2. 「新しいドキュメントを作成」で「空白」を選ぶ。

3. 「ファイル」→「開く」を選ぶ。

4. 「アップロード」を選ぶ。

5. 読み込みたいpdfファイルをドラッグするか、選択する。

6. pdfが開いたら、「Googleドキュメントで開く」を選ぶ。

7. 「Googleドキュメント」の形式に変換されたら、「ファイル」→「ダウンロード」→「Microsoft word (.docx)」を選ぶ。

8. ダウンロードされたファイルをwordで開く。

9. 文字のフォント、大きさ、色などや、行間などがまちまちになっているはずなので、ページ全体を選択しつつ、wordの「ホーム」の「フォント」「段落」のところで文字、行間をそろえる。

あとはきちんと読み込めていない文字、読み誤った文字を修正したり、余分なスペース、改行などを消したりしなければなりませんが、かなりの確率できちんと読み込めていました。それらの作業が嫌になるほどではないレベルです。

ロシア語も読み込めましたし、縦書きの日本語もすんなり横書きのwordデータになりました。

いったい誰にどれだけ参考になるか分からないのですが、OCRソフトが手元にない、という方はどうぞお試しください。

この記事が気に入ったらサポートをしてみませんか?