見出し画像

テキストファイルの読み込みについて

PythonでPDF→テキスト化をしてそのテキストを読み込む方法になります。
サンプルで使うPDFはExcelで作ったものになります

PDF→テキスト化について

PDFファイルをテキストに起こすのはsimpleを使いました。

このテキストがPDF→txtファイルにしたものになります。

read()、readlines()、readline()メソッド

テキストに読み込みには3つのメソッドがあります。それぞれの特徴は以下になります。

・read() – ファイルを全て読み込み、その文字列データに対して処理を行う
・readlines() – ファイルを全て読み込み、1行毎に処理を行う
・readline() – 1行毎に読み込み、その処理を繰り返す

結論、よくわかりません。ちょっとコードを書いてみたいと思います。

Pythonのバージョン

遅れましたが、バージョン3.6.10となります

read() で実行

コードは以下のようになります

import os
import re
 #ファイルの読み込み 
path = '1pdf.txt'
 #ファイルを開く 
with open(path) as open_file:
  areas = open_file.read()
 #str型に変換 
 str_areas = str(areas)

print(str_areas)

ファイル名:sample.py
実行コマンド:python sample.py

コマンドを実行すると、読み込んだ後画面が消えて

[macan@localhost ~]$

のようになります。

readlines()で実行

コードは以下のようになります

 #ファイルを開く 
with open(path) as open_file:
  areas = open_file.readlines()
 #str型に変換 
 str_areas = str(areas)

print(str_areas)

ファイル名:sample.py
実行コマンド:python sample.py

コマンドを実行すると、読み込んだ後画面が消えて

['整理番号:322636940\u3000\u3000日付:令和2年4月15日\n', '\n', '番号通知\n', '\n', '\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000平成\u300030年5月 2日\n', '\n', '\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000赤しそ\u3000ねぎ\n', '\n', '提出人\u3000\u3000\u3000544506015206\u3000\n', '\n', '参考人\u3000\u3000\u3000青しそ\u3000大葉\u3000様\u3000\n', '\n', '提出日\u3000\u3000\u3000昭和16年\u30002月 29日\u3000\n', '\n', '提出番号\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000\u3000通知番号\n', '\n', 'PYT/MQL4827/793784\u3000\u3000\u3000\u3000通知256488\n', '\n', 'このファイルは適当に作ったサンプルファイルとなります。\n', '\n', 'Pythonで使うサンプルとなります。\n', '\n', '以上\n', '\n', 'このファイルが間違って届いたら破棄してください。\n', '\n', '\x0c']

となります。全て読み込んだ後1行で表示されるようになっています。

readline() で実行

コードは以下のようになります

import os
import re
 #ファイルの読み込み 
path = '1pdf.txt'
 #ファイルを開く 
with open(path) as open_file:
  areas = open_file.readline()
 #str型に変換 
 str_areas = str(areas)

print(str_areas)

ファイル名:sample.py
実行コマンド:python sample.py

コマンドを実行すると、読み込んだ後画面が消えて

整理番号:322636940  日付:令和2年4月15日
[macan@localhost ~]$

のようになります。

最初の1行目だけ読み込まれております。

それぞれの違い

おそらくですが、
・read()
→ファイル全体を読み込み、最後まで処理をする(テキストの最後が空白のため空白が表示されている)

・readlines()
→ファイル全体を読み込み、1行として処理をして出力(改行などのコードはそのまま表示される)

・readline()
→ファイル1行を読み込み、そこだけ処理をする
最初の1行目だけ表示されて処理は終了

だと思います。

お役に立ちましたか?

投げ銭をいただけるともっと頑張れます!
・note
・仮想通貨(bitflyer)
のどちらでも構いません
ビットコインアドレスは以下になります
3LHnADwZwUbic2L45EnVJEykiG6KfbqrwS

この記事が気に入ったらサポートをしてみませんか?