見出し画像

PDFファイルからテキストを抜き出す

読了時間:1~2分 

前回はPDFのアクションを使ってPDFファイルを結合させました。今回はPDFのアクションを使ってPDFファイルからテキストを抜き出します。このアクションを使うと指定のページからテキストを抜き出すことができるので便利です。

サンプル PDFファイルから目次を抜き出す


まずは全体のフローです。

全体のフロー図

次に実行結果です。

PDFから目次を抜き出した結果

フローの詳細です。

  1. PDFから抜き出したいテキストのページを指定する

  2. Excelを立ち上げる

  3. PDFから抜き出したテキストをExcelに書き込む

1.PDFから抜き出したいテキストのページを指定する
PDFファイルから抜き出したいページを指定します。今回は「信用保証協会向けの総合的な監督指針.pdf」からP2の目次を抜き出します。(下図参照)

「信用保証協会向けの総合的な監督指針」の目次

下図の編集画面でPDFファイルに前述のファイルパス、抽出するページは単一、単一ページ番号は2ページ目を抜き出すので2を入力します。

PDFからテキストを抽出アクションの編集画面


2.は割愛します。

3.PDFから抜き出したテキストをExcelに書き込む
下図の編集画面のように設定します。書き込む値にPDFから抜き出したテキストを格納している%ExtractedPDFText%変数を入力、今回はA1セルに書き込むので列と行はともに1を入力します。

Excelワークシートに書き込むアクションの編集画面

以上で完了です。
書き込んだ値はA1セルにすべて書き込まれるので折り返し表示になっています。この目次をセル単位で表示させたい場合は、A1セルでF2を押して編集モードにし、全選択してからコピー。そして違うセルに貼り付けてみてください。するとセル単位で目次が表示されます。(下図参照)

目次をセル単位で表示

今回もご覧くださいましてありがとうございます。


この記事が気に入ったらサポートをしてみませんか?