日本薬局方のPDFファイルをpythonでtext保存する

2022年10月4日 23:50

PDFファイルをtextエディタに変換して、保存する方法です。
医薬品でQCを担当する場合、試験法のSOPを作る時、日本薬局方の文書を引用することが多いです。

そんな日本薬局方をtext化する方法です。

①厚生労働省のホームページから、日本薬局方のPDFをダウンロードします。

②ubuntuのターミナルで以下のコマンドを入力し、pdfminer.sixをダウンロードします。

③pythonの環境で以下のコマンドを書き、python3で実行します。筆者はVScodeで行いました。

from pdfminer.high_level import extract_text
text = extract_text('000788359.pdf')
f = open('myfile.txt', 'x')
f.writelines(text)
f.close()

000788359.pdfは筆者が保存した日本薬局方のPDFファイルです。myfile.txtが書き込みたいファイル名になります

④以下のようにtextファイルが作成され、中身も保管されました。

この記事が気に入ったらサポートをしてみませんか？