テキストファイルの読み込みについて
PythonでPDF→テキスト化をしてそのテキストを読み込む方法になります。
サンプルで使うPDFはExcelで作ったものになります
PDF→テキスト化について
PDFファイルをテキストに起こすのはsimpleを使いました。
このテキストがPDF→txtファイルにしたものになります。
read()、readlines()、readline()メソッド
テキストに読み込みには3つのメソッドがあります。それぞれの特徴は以下になります。
・read() – ファイルを全て読み込み、その文字列データに対して処理を行う
・readlines() – ファイルを全て読み込み、1行毎に処理を行う
・readline() – 1行毎に読み込み、その処理を繰り返す
結論、よくわかりません。ちょっとコードを書いてみたいと思います。
Pythonのバージョン
遅れましたが、バージョン3.6.10となります
read() で実行
コードは以下のようになります
import os
import re
#ファイルの読み込み
path = '1pdf.txt'
#ファイルを開く
with open(path) as open_file:
areas = open_file.read()
#str型に変換
str_areas = str(areas)
print(str_areas)
ファイル名:sample.py
実行コマンド:python sample.py
コマンドを実行すると、読み込んだ後画面が消えて
[macan@localhost ~]$
のようになります。
readlines()で実行
コードは以下のようになります
#ファイルを開く
with open(path) as open_file:
areas = open_file.readlines()
#str型に変換
str_areas = str(areas)
print(str_areas)
ファイル名:sample.py
実行コマンド:python sample.py
コマンドを実行すると、読み込んだ後画面が消えて
['整理番号:322636940\u3000\u3000日付:令和2年4月15日\n', '\n', '番号通知\n', '\n', '\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000平成\u300030年5月 2日\n', '\n', '\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000赤しそ\u3000ねぎ\n', '\n', '提出人\u3000\u3000\u3000544506015206\u3000\n', '\n', '参考人\u3000\u3000\u3000青しそ\u3000大葉\u3000様\u3000\n', '\n', '提出日\u3000\u3000\u3000昭和16年\u30002月 29日\u3000\n', '\n', '提出番号\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000通知番号\n', '\n', 'PYT/MQL4827/793784\u3000\u3000\u3000\u3000通知256488\n', '\n', 'このファイルは適当に作ったサンプルファイルとなります。\n', '\n', 'Pythonで使うサンプルとなります。\n', '\n', '以上\n', '\n', 'このファイルが間違って届いたら破棄してください。\n', '\n', '\x0c']
となります。全て読み込んだ後1行で表示されるようになっています。
readline() で実行
コードは以下のようになります
import os
import re
#ファイルの読み込み
path = '1pdf.txt'
#ファイルを開く
with open(path) as open_file:
areas = open_file.readline()
#str型に変換
str_areas = str(areas)
print(str_areas)
ファイル名:sample.py
実行コマンド:python sample.py
コマンドを実行すると、読み込んだ後画面が消えて
整理番号:322636940 日付:令和2年4月15日
[macan@localhost ~]$
のようになります。
最初の1行目だけ読み込まれております。
それぞれの違い
おそらくですが、
・read()
→ファイル全体を読み込み、最後まで処理をする(テキストの最後が空白のため空白が表示されている)
・readlines()
→ファイル全体を読み込み、1行として処理をして出力(改行などのコードはそのまま表示される)
・readline()
→ファイル1行を読み込み、そこだけ処理をする
最初の1行目だけ表示されて処理は終了
だと思います。
お役に立ちましたか?
投げ銭をいただけるともっと頑張れます!
・note
・仮想通貨(bitflyer)
のどちらでも構いません
ビットコインアドレスは以下になります
3LHnADwZwUbic2L45EnVJEykiG6KfbqrwS
この記事が気に入ったらサポートをしてみませんか?