見出し画像

画像から文字を認識して抽出する方法

あなたにも「本をテキストしたいな。」「この書類データ化・テキスト化なんてめんどうくさい。」「Fax文書の資料整理、誰かて助けて。」という場面にあっとことはありませんか。こういう文字起こしをする必要があるときに、OCRという技術を用いれば仕事を簡単にさせます。今回紹介したいのは「Cisdem OCRWizard」というソフトです。このソフトでは画像ファイルを丸ごと文字に変換でき、アドバンス設定で高度なカスタマイズもできます。


OCRというのは?

OCRというのは光学的文字認識(Optical Character Recognition/Reader)のことです。最初は視覚障害者のために開発された技術ですが、精度の向上と色々な技術の導入の結果、この技術はデータ整理や情報抽出の場合にも用いられるようになりました。今、ほとんどのPDFソフト会社はこの技術を自社の商品に導入するため、PDFの文字起こしに大に貢献しました。ただし、画像のファイルやほかの編集できないフォーマットへの導入はまだまだです。

好きなソフトを選んで、必ず試してみましょう。今回は「Cisdem OCRWizard」という多機能OCRソフトを例に皆さんにご紹介します。


個別の画像から文字を抽出する場合

まず、個別の画像から文字を抽出する方法をご紹介しましょう。

  1. Cisdem OCRWizardをインストールして起動します。

  2. 紫の「Singe Image Recognition」をクリックします。

  3. 「Add Image」をクリックして、画像ファイルを追加します。

  4. 追加した画像をレビュできます。左下から「Language(画像言語)」(普通はJapaneseと設定してください)、「Format(フォーマット)」(テキスト・DOC・RTFから選択でき)、「Directory(保存先)」を選択してください。

  5. 確認したら、右下の「Start」をクリックして変換し始めます。

  6. 変換した内容は右サイドバーから確認して、左下の「Save Result」をクリックしたら。ローカルフォルダに保存できます。


複数の画像から一括に文字を抽出する場合

でも、ほとんどの人は個別のファイルだけから文字を抽出するのではありません。複数の画像がある場合、次の手順を沿って変換しましょう。

  1. Cisdem OCRWizardをインストールして起動します。

  2. 青の「Batch Image Recognition」をクリックします。すでに起動した場合、左サイドバーから選択してもよろしい。

  3. 「Add Images」をクリックして、Crtlキーをキープしながら、ファイルを複数選択します。もし全ての画像ファイルは一つのフォルダにある場合、「Add Folder」から画像を追加してよろしいです。

  4. 「Language(画像言語)」、「Format(フォーマット)」、「Directory(保存先)」を選択してください。

  5. ファイル横の三角アイコンをクリックしたら個別に変換でき、右下の「Start」をクリックしたら、一括に変換できます。

  6. 変換した内容は自動でローカルフォルダに保存するので、ファイル情報横のフォルダアイコンをクリックしたら確認できます。


スクリーンショットから文字を抽出する場合

ときには画像じゃなくて、直にスクリーンショットできる資料から文字起こしをしたいかもしれません。こういうときにはスクリーンショット認識機能が対応しています。次はその方法です。

  1. Cisdem OCRWizardをインストールして起動します。

  2. 紺色の「Screenshot Recognition」をクリックやサイドバーから選択します。

  3. 「Language(画像言語)」、「Format(フォーマット)」、「Directory(保存先)」を設定します。

  4. 文字起こししたい部分を「Altキー+F」でスクリーンショットします。

  5. とったスクリーンショットを確認して、「Start」をクリックしてOCR化します。

  6. 右サイドバーでレビューしたら、認識結果を保存します。


アドバンス設定で文字を抽出する場合

それよりもカスタマイズな設定をして変換したい場合はどうします。実は次の手順に沿ったらできます。

  1. Cisdem OCRWizardをインストールして起動します。

  2. オレンジ色「Advanced Recognition」を選択します。もちろん、起動した時はサイドバーから選択してもよろしいです。

  3. 変換したいファイルを「Add File」から追加します。PDFファイルと画像ファイル両方とも対応していますので、自由に追加できます。

  4. 左上の長方形のある三つのアイコンに注目しましょう。赤い長方形のアイコンは認識範囲を選択するツールで、紫の長方形は強制的に認識させない範囲を選定するツールです。最後のアイコンにクリックしたら全ての選定はキャンセルされます。

  5. 「Language(画像言語)」を設定してツールバーの「Recognize」を選択したら、選定した範囲を変換できます。

  6. 右サイドバーで認識したい内容を確認しましょう。確認したら「Save」をクリックして保存できます。


はい、ではいかがでしょう。今回は「Cisdem OCRWizard」で画像から文字を抽出する方法を四つ紹介しましたが、あなたのニーズに当たっている方法はありますか。あったら絶対試してみてください。このソフトは三回まで無料試用できますので、できればソフトをダウンロードして確認してみてもよろしいでしょう。では、次回また。

この記事が気に入ったらサポートをしてみませんか?