見出し画像

pdf、画像で表にされた数字、文字をテキストを抽出してセルに挿入

pdf、画像で表にされた数字、文字をテキストを抽出してセルに挿入 - つみかさね
https://3yokohama.hatenablog.jp/entry/2023/07/08/204611

PDFの数字、テキストをChatGptのAPIを使って抽出することが出来るという記事があって、そのやり方などを調査していたのですが、Excelに、画像からデータ という機能というものを見つけました。これは画像データをEXCELに読み込んでセルに挿入することが出来るという機能です。そこでPDFをJPGに変換して、それをEXCELで読み込んでみました。

見本は令和5年情報通信白書の1ページをjpgにして試してみました。これは成功しました。Excelの説明によると旨くいく場合と駄目な場合があるということだったのでラッキーかな?画像になったテキストを抽出するにはOCRソフトウェアの機能が付いているのだと思います。またOffice365のExcelの最新版では出来ます。

2022年9月Excelに、画像からデータ という機能がつきました。これは、画像に含まれるテキストや表データを分析して、Excel のセルに挿入できる機能です

この機能を使うには、次の手順を実行します。

  1. [データ] タブの [画像から] をクリックします。

  2. [ファイルからの画像] か [クリップボードからの画像] を選択します。

  3. ファイルの場合はファイルダイアログが開き、クリップボードの場合はそのまま分析に進みます。

  4. 分析の完了を待ちます。

  5. データを挿入をクリックします。
    この時、分析内容の確認を求められますが、ここで確認するよりもセルに展開してからの方が確認と訂正が容易です。
    この機能は、英語や日本語などの多くの言語に対応していますが、完全に正確に読み取れるとは限りません。特にカンマ付きの数字や半濁点などは間違えやすいので注意が必要です。また、画像はインポートするデータのみを示し、角度やパースペクティブが正しいものである必要があります。

画像になったテキスト文字を入力するには手作業で打ち込む、OCRソフトウェア等を使う方法がありますが、手作業は手間暇が掛かる。OCRソフトも間違うこと多い。等があって今まであまり使わなかったのです、このExcelに、画像からデータ という機能は正確に変換することが出来ました。もう少し使ってみたいと思います。


pdf、画像で表にされた数字、文字をテキストを抽出してセルに挿入
pdf、画像で表にされた数字、文字をテキストを抽出してセルに挿入

この記事が気に入ったらサポートをしてみませんか?