受取請求書から正規表現を使ってのfreee取引作成
請求書をpdf等の電子データで受け取ることも増えてきました。紙の請求書をスキャンしたようなものもありますが、何らかのシステムから出力されたデータである場合も多いと思います。
システムから出力されたpdfファイルは、OCR処理とも相性がよく、レイアウト崩れを無視すれば、テキスト情報の抽出が容易です。
これまでの連載では、OCRで抽出したテキストから生成AIを活用して請求額などの情報を抽出してきました。
今回は、AIを使わないアプローチとして定型の請求書から正規表現で情報を