我就废话不多说了,大家还是直接看代码吧!
from PyPDF2.pdf import PdfFileReader
import pandas as pd
def Pdf_to_txt(pdf):
for i in range(0, pdf.getNumPages()):
title = []
lin1, lin2, lin3, lin4, lin5, lin6, lin7, lin8 = [], [], [], [], [], [], [], []
extractedText = pdf.getPage(i).extractText()
text = extractedText.split('\n')
num = 0
for lin in text:
if num == 0:
title.append(lin)
elif num == 1:
lin1.append(lin)
elif num == 2:
lin2.append(lin)
elif num == 3:
lin3.append(lin)
elif num == 4:
lin4.append(lin)
elif num == 5:
lin5.append(lin)
elif num == 6:
lin6.append(lin)
elif num == 7:
lin7.append(lin)
elif num == 8:
lin8.append(lin)
num = 0
num += 1
Lin_num = len(lin8)
data = {'Lin1': lin1[:Lin_num], 'Lin2': lin2[:Lin_num], 'Lin3': lin3[:Lin_num], 'Lin4': lin4[:Lin_num], 'Lin5': lin5[:Lin_num], 'Lin6': lin6[:Lin_num], 'Lin7': lin7[:Lin_num], 'Lin8': lin8[:Lin_num]}
df = pd.DataFrame(data, columns=['Lin1', 'Lin2', 'Lin3', 'Lin4', 'Lin5', 'Lin6', 'Lin7', 'Lin8'])
file_name = title[0] + '_page' + str((i + 1))
df.to_csv('tool/pdf解析/%s.txt' % file_name, index=False, sep='\t')
if __name__ == '__main__':
filename = 'E:/SVN/采集框架V2/analyse_code/政策/pdf/con026465.pdf'
pdf = PdfFileReader(open(filename, "rb"))
Pdf_to_txt(pdf)
补充知识:使用PyPDF2库对pdf文件进行指定页面删除操作
平台:win10家庭版,python 3.7,PyPDF2
思维过程:
方法一:将pdf文件通过拆分为单页,放入一个文件夹,再删除其中不要的文件,最后再把剩余的文件进行合并为一个pdf文件
第一步:使用原文件路径创建新文件夹,用于存放拆分后的单页文件
def newdir(self,path):
self.new = os.path.splitext(path)[0]
if not os.path.isdir(self.new): #使用os.path.isdir判断文件夹是否存在,
os.mkdir(self.new)
第二步:生成单页文件,并存放到新建的文件夹
def pdfsplt(self,path):
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
#使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
for page in range(0,file_reader.getNumPages()):
file_write = PyPDF2.PdfFileWriter()
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
with open(output,"wb") as output_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在!")
time.sleep(3)
exit()
第三步:删除文件夹中不要的文件
def pdfremove(self,number):
for pag in number:
filename = str(self.new) + "\\" + str(pag) + ".pdf"
if os.path.isfile(filename):
os.unlink(filename)
else:
print("请确认要删除的页码%s是否正确!!"%pag)
第四步:把剩余文件合并为一个pdf文件
def pdfmerge(self):
file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #读取新建文件夹下的所有文件并提取文件名转为数字
file_write = PyPDF2.PdfFileWriter() #先创建一个新的pdf对象
for page in sorted(file_list):
pathstr = str(self.new) + "\\" + str(page) + ".pdf"
file_1 = open(pathstr,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # 使用strict关闭错误提示
pageobj = file_reader.getPage(0)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output, "wb") as output_pdf:
file_write.write(output_pdf)
print("第%s页完成"%page)
file_1.close()
第五步:删除其中的缓存文件夹
def rmdir(self):
if os.path.isdir(self.new):
shutil.rmtree(self.new)
方法一的完整代码:
import PyPDF2
import os,time,shutil,sys
import threading
class mypdf(object):
def __init__(self,path,number):
self.newdir(path)
self.pdfsplt(path)
self.pdfremove(number)
self.pdfmerge()
self.rmdir()
pass
#用于创建一个独立的文件夹,存放缓存数据
def newdir(self,path):
self.new = os.path.splitext(path)[0]
if not os.path.isdir(self.new): #使用os.path.isdir判断文件夹是否存在,
os.mkdir(self.new)
#将每一页生成独立文件,存放到缓存文件夹
def pdfsplt(self,path):
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
#使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
for page in range(0,file_reader.getNumPages()):
file_write = PyPDF2.PdfFileWriter()
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
with open(output,"wb") as output_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在!")
time.sleep(3)
exit()
#删除缓存文件夹中的不要的页
def pdfremove(self,number):
for pag in number:
filename = str(self.new) + "\\" + str(pag) + ".pdf"
if os.path.isfile(filename):
os.unlink(filename)
else:
print("请确认要删除的页码%s是否正确!!"%pag)
#将缓存文件夹中的剩余文件合进行合并
def pdfmerge(self):
file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #读取新建文件夹下的所有文件并提取文件名转为数字
file_write = PyPDF2.PdfFileWriter() #先创建一个新的pdf对象
for page in sorted(file_list):
pathstr = str(self.new) + "\\" + str(page) + ".pdf"
file_1 = open(pathstr,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # 使用strict关闭错误提示
pageobj = file_reader.getPage(0)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output, "wb") as output_pdf:
file_write.write(output_pdf)
print("第%s页完成"%page)
file_1.close()
def rmdir(self):
if os.path.isdir(self.new):
shutil.rmtree(self.new)
if __name__ == "__main__":
#通过第一个参数获取待处理的文件,第二个参数到以后为删除的页码
path = sys.argv[1]
number = sys.argv[2:]
mypdf = mypdf(path,number)
def f(path,number):
mypdf(path,number)
threading.Thread(target=f,args=[path,number])
方法二:在写入新文件时使用if判断进行筛选出不要的页面
想法一、将读取与写入同时处理。使用if判断筛选不要的页面
def pdfsplt(self,path,number):
print(number,type(number))
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
file_write = PyPDF2.PdfFileWriter()
#使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
for page in range(0,file_reader.getNumPages()):
if page not in number:
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output,"wb") as output_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在!")
time.sleep(3)
exit()
想法二、将数据先全部放入内存,最后在写入,来提高速度:
def pdfsplt(self,path,number):
print(number,type(number))
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
file_write = PyPDF2.PdfFileWriter()
#使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
for page in range(0,file_reader.getNumPages()):
if page not in number:
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output,"wb") as output_pdf: #将内容全部放入内存,最后写入,提高处理速度
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在!")
time.sleep(3)
exit()
方法二的完整代码:
import PyPDF2
import os,time,shutil,sys
import threading
class mypdf(object):
def __init__(self,path,number):
self.new = os.path.splitext(path)[0] #获取文件的路径
self.pdfsplt(path,number)
pass
#循环每一页读入内存,最后写入文件
def pdfsplt(self,path,number):
print(number,type(number))
if os.path.isfile(path):
file_1 = open(path,"rb")
file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
file_write = PyPDF2.PdfFileWriter()
#使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
for page in range(0,file_reader.getNumPages()):
if page not in number:
pageobj = file_reader.getPage(page)
file_write.addPage(pageobj)
output = str(self.new) + "_new.pdf"
with open(output,"wb") as output_pdf: #将内容全部放入内存,最后写入,提高处理速度
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在!")
time.sleep(3)
exit()
if __name__ == "__main__":
#通过第一个参数获取待处理的文件,第二个参数到以后为删除的页码
path = sys.argv[1]
number = sys.argv[2:]
number = list(map(int, number))
mypdf = mypdf(path,number)
def f(path,number):
mypdf(path,number)
threading.Thread(target=f,args=[path,number])
两种方法的比较:
方法一
方法二中的第一种想法
方法二中的第二种想法
运行速度
慢
较慢
快
代码量
65行
34行
34行
缺点:
方法一在处理扫描的pdf文件时,运行速度太慢,不能实现范围性的删除。
方法二不能实现范围性的删除
以上这篇PyPDF2读取PDF文件内容保存到本地TXT实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
P70系列延期,华为新旗舰将在下月发布
3月20日消息,近期博主@数码闲聊站 透露,原定三月份发布的华为新旗舰P70系列延期发布,预计4月份上市。
而博主@定焦数码 爆料,华为的P70系列在定位上已经超过了Mate60,成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢?
根据目前爆料的消息来看,华为P70系列将推出三个版本,其中P70和P70 Pro采用了三角形的摄像头模组设计,而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智,但辨识度绝对拉满。
更新动态
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]