フォローしませんか?
シェア
yucco
2022年9月1日 12:03
わーいpythonでOCR出来るようになったぞー、と思って色んなデータ突っ込んでみたら早速、テキストがあるはずなのに「テキストが空っぽやで~」って言われる、という事件が発生したので対処をまとめます。日本語テキストデータが入っているPDFはWindows環境のPopplerが画像化出来ない中間データを追っていったところ、ここが悪さをしていました。PDFをjpg化する時点でテキストが全部消えます