python初心者が、ランサーズで製品を売るための模索

2023年4月23日 15:42

ここ最近は、CGもpythonも身が入らず、ただ流されるだけの毎日です。
毎日、確かにpythonを開いて、何か副業としてできないか？模索しているが、うまくいかないです。

突然ですが、ランサーズに登録してみました。目的は一般的なデータ形式を変更することや、主業で行っているエクセルの自動化など。
これを金稼ぎに活かせないか？っという部分です。
気が向いたので、簡単にですが、一般的なpdfの取扱い方法について載せておきます。

python初心者のためのpdfのデータ取扱い方法

PythonでPDFファイルを読み込んでExcelファイルに変換するためには、いくつかのライブラリを使用する必要があります。以下の手順に従って、PDFファイルをエクセルに変換する方法を説明します。

必要なライブラリをインストールする

まずは、以下のライブラリをインストールする必要があります。

PyPDF2: PDFファイルを扱うためのライブラリ
pandas: データフレームを扱うためのライブラリ
openpyxl: Excelファイルを扱うためのライブラリ

以下のコマンドでインストールすることができます。

Copy codepip install PyPDF2 pandas openpyxl

２．PDFファイルを読み込む

以下のコードで、PDFファイルを読み込みます。

pythonCopy codeimport PyPDF2

with open('example.pdf', 'rb') as pdf_file:
    pdf_reader = PyPDF2.PdfFileReader(pdf_file)
    num_pages = pdf_reader.getNumPages()
    text_list = []
    for i in range(num_pages):
        page_obj = pdf_reader.getPage(i)
        text = page_obj.extractText()
        text_list.append(text)

このコードでは、example.pdfというファイルを読み込んで、各ページのテキストをtext_listに格納しています。

テキストをデータフレームに変換する

以下のコードで、テキストをデータフレームに変換します。

pythonCopy codeimport pandas as pd

df = pd.DataFrame({'text': text_list})

このコードでは、text_listを1列目に持つデータフレームdfを作成しています。

3．データフレームをExcelファイルに変換する

最後に、データフレームをExcelファイルに変換するコードを以下に示します。

pythonCopy codefrom openpyxl import Workbook

wb = Workbook()
ws = wb.active

for r in dataframe_to_rows(df, index=False, header=True):
    ws.append(r)

wb.save('example.xlsx')

このコードでは、openpyxlのWorkbookを使って新しいExcelファイルを作成し、データフレームの各行をExcelファイルの行に追加しています。最後に、Excelファイルを保存しています。

以上の手順で、Pythonを使ってPDFファイルをExcelファイルに変換することができます。

この記事が気に入ったらサポートをしてみませんか？