Python日記vol.20🐍PDFの表からデータを取得して叙勲受章者の表を作りたい

alice

2023年9月6日 07:49

こんにちは。aliceです。
Python日記もvol.20になりました。
ここまで続いていることに自分でもびっくりです。
いつも読んでくださりありがとうございます🙏

今日はPDFの表からデータを取得して叙勲受章者の表を作ります。

このようなPDFがあります。

このPDFの表から、このようなExcelを作ります。

春と秋にありますよね、叙勲。

今年の春の話です🌸
えらーい方が受賞しているかを確認するという仕事があり、「新聞に受章者が載るので確認してね」と言われたのですが、えーっと名前を見ても…。

Excelに出力できたら、あとはどうにかなると思ったので作ってみました。

PDFのデータから表を作成する

今回はこちらのデータを使います。
国土交通省の令和5年春の叙勲受章者名簿です。

（別紙）令和５年春の叙勲受章者名簿

https://www.mlit.go.jp/report/press/content/001604208.pdf

先ほどのPDFです。
まず、PDFファイルをダウンロードして同一ディレクトリに保存します。

4ページからが名簿になっているので、4ページ以降のデータを取得します。

次のライブラリをインストールします。

pip install PyMuPDF
pip install pandas
pip install openpyxl

だいたい次のことをやります。

1　PDFからテーブルを抽出する
2　抽出したテーブルをpandasのデータフレームに変換する
3　データフレームをいい感じに編集する
4　Excelに出力する

import fitz
import pandas as pd


def extract_and_transform_tables(pdf_path, start_page):
    """
    PDFからテーブルを抽出し、データフレームに変換します。

    :param pdf_path: PDFファイルのパス
    :param start_page: 開始ページ番号
    :return: テーブルを変換したデータフレームのリスト
    """
    doc = fitz.open(pdf_path)  # ドキュメントを開く
    extracted_dfs = []

    for page_num in range(start_page, doc.page_count + 1):
        page = doc[page_num - 1]  # ページ番号は0から始まるため、1を引く
        tables = page.find_tables()  # テーブルを検索

        if tables.tables:  # テーブルが見つかった場合
            table_data = tables[0].extract()
            columns = table_data[0]
            data_rows = table_data[1:]

            df = pd.DataFrame(data_rows, columns=columns)
            extracted_dfs.append(df)

    return extracted_dfs


def split_and_clean_columns(df):
    """
    データフレームの6列目を分割してクリーンアップします。

    :param df: データフレーム
    :return: 分割されたデータフレーム
    """
    new_columns = df.iloc[:, 5].str.split('\n', expand=True)
    new_columns.columns = ['振り仮名', '名前']

    new_columns['振り仮名'] = new_columns['振り仮名'].str.replace(' ', '')
    new_columns['名前'] = new_columns['名前'].str.replace(' ', '')

    return new_columns


if __name__ == '__main__':
    pdf_path = '001604208.pdf'
    start_page = 4  # 開始ページ番号
    excel_path = '受章者リスト.xlsx'

    extracted_dataframes = extract_and_transform_tables(pdf_path, start_page)

    combined_df = pd.concat(extracted_dataframes, ignore_index=True)

    new_columns = split_and_clean_columns(combined_df)
    combined_df = pd.concat([combined_df.drop(columns=combined_df.columns[5]), new_columns], axis=1)

    combined_df.to_excel(excel_path, index=False)
    print('Excelファイルに保存しました')

すると、Excelに次のような表が出力されます。

めでたしめでたし。

せっかくなので、ちょっと振り返りますか。

1　PDFからテーブルを抽出する

まずはPDFからテーブルを抽出します。

PyMuPDFライブラリのfind_tablesメソッドを使いました。

PyMuPDFライブラリ、なんか初心者に優しい（感じがして）好きです。
優しいはつよつよです。

まずは、4ページ目のテーブルのデータを取得してみます。
こちらです。（しつこい？）

PDFの4ページ目に表（テーブル）があったら出力してみます。

import pprint

import fitz

pdf_path = '001604208.pdf'
doc = fitz.open(pdf_path)

page = doc[5]  # ページ番号は0から始まるため、1を引く
tables = page.find_tables()  # テーブルを検索

if tables.tables:  # テーブルが見つかった場合
    table_data = tables[0].extract()
    pprint.pprint(table_data)

すると、このように出力されます。
とりあえず、データを取得できました。

2　抽出したテーブルをpandasのデータフレームに変換する

この表をpandasのデータフレームに変換します。

import fitz
import pandas as pd

pdf_path = '001604208.pdf'
doc = fitz.open(pdf_path)

page = doc[5]  # ページ番号は0から始まるため、1を引く
tables = page.find_tables()  # テーブルを検索

if tables.tables:  # テーブルが見つかった場合
    table_data = tables[0].extract()
    columns = table_data[0]  # 列名を取得
    data_rows = table_data[1:]  # データ行を取得
    df = pd.DataFrame(data_rows, columns=columns)

    print(df)

すると、このように出力されます。

Excelに出力してみました。
ちょっとふりがなと名前のところを変えたいです🖊
このままだと検索ができない🥲

ここですね。
ここを変えたい。

3　データフレームをいい感じに編集する

先ほどのふりがなと名前を別々に出力してみます。

import fitz
import pandas as pd

pdf_path = '001604208.pdf'
doc = fitz.open(pdf_path)

page = doc[5]  # ページ番号は0から始まるため、1を引く
tables = page.find_tables()  # テーブルを検索

if tables.tables:  # テーブルが見つかった場合
    table_data = tables[0].extract()
    columns = table_data[0]  # 列名を取得
    data_rows = table_data[1:]  # データ行を取得
    df = pd.DataFrame(data_rows, columns=columns)

    new_columns = df.iloc[:, 5].str.split('\n', expand=True)
    new_columns.columns = ['振り仮名', '名前']

    new_columns['振り仮名'] = new_columns['振り仮名'].str.replace(' ', '')
    new_columns['名前'] = new_columns['名前'].str.replace(' ', '')

    print(new_columns)

いい感じに出力できました。
これで検索できそうです。

4　Excelに出力する

最後にExcelに出力します。
pandasだと簡単にExcelに出力できるのが嬉しいです。

import fitz  # PyMuPDFのモジュール
import pandas as pd

# PDFファイルのパスを指定します
pdf_path = '001604208.pdf'

# PDFを開きます
doc =  fitz.open(pdf_path)

# 特定のページを取得します（ページ番号は0から始まるため、1を引きます）
page = doc[5]

# ページからテーブルを検索します
tables = page.find_tables()

if tables.tables:  # テーブルが見つかった場合
    # テーブルのデータを抽出します
    table_data = tables[0].extract()
    columns = table_data[0]  # 列名を取得
    data_rows = table_data[1:]  # データ行を取得
    df = pd.DataFrame(data_rows, columns=columns)

    # 列を追加してデータを整形します
    new_columns = df.iloc[:, 5].str.split('\n', expand=True)
    new_columns.columns = ['振り仮名', '名前']

    new_columns['振り仮名'] = new_columns['振り仮名'].str.replace(' ', '')
    new_columns['名前'] = new_columns['名前'].str.replace(' ', '')

    print(new_columns)

    # 元のデータフレームと新しい列を結合します
    combined_df = pd.concat([df.drop(columns=df.columns[5]), new_columns], axis=1)

    # 結果をExcelファイルに保存します
    combined_df.to_excel('test.xlsx', index=False)

いい感じに出力できました。

今のままだと4ページ目しか出力していないので、欲しいすべてのページのテーブルを取得して1つにします。

それが、最初のコードです😀

秋の叙勲で使ってみようかな？？

おまけ

PyMuPDFを推してみました💖

PDFの操作は楽しいですね🌼

この記事が気に入ったらサポートをしてみませんか？

Python日記vol.20🐍PDFの表からデータを取得して叙勲受章者の表を作りたい

PDFのデータから表を作成する

1 PDFからテーブルを抽出する

2 抽出したテーブルをpandasのデータフレームに変換する

3 データフレームをいい感じに編集する

4 Excelに出力する

おまけ

1　PDFからテーブルを抽出する

2　抽出したテーブルをpandasのデータフレームに変換する

3　データフレームをいい感じに編集する

4　Excelに出力する