python怎样读取pdf文件的内容

2026-04-01 11:58:56

1、首先要下载一个处理pdf的组件pdfminer,百度搜索去官网下载

python怎样读取pdf文件的内容

2、下载完成解压以后,打开cmd进入用命令安装。python  setup.py install  进行安装

python怎样读取pdf文件的内容

3、我们来测试一下是否安装成功了,引入这个模块,运行一下代码,没有报错就说明安装成功了

python怎样读取pdf文件的内容

4、官网有文档也有代码示例

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager

from pdfminer.pdfinterp import PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

fp = open('mypdf.pdf', 'rb')

#创建一个PDF文档解析器对象

parser = PDFParser(fp)

#创建一个PDF文档对象存储文档结构

#提供密码初始化,没有就不用传该参数

document = PDFDocument(parser, password)

#检查文件是否允许文本提取

if not document.is_extractable:

    raise PDFTextExtractionNotAllowed

#创建一个PDF资源管理器对象来存储共享资源

rsrcmgr = PDFResourceManager()

#创建一个pdf设备对象

device = PDFDevice(rsrcmgr)

#创建一个PDF解析器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

#处理文档当中的每个页面

for page in PDFPage.create_pages(document):

    interpreter.process_page(page)

python怎样读取pdf文件的内容

5、我新建一个pdf,新输入一些内容

python怎样读取pdf文件的内容

6、运行一下代码,看一下效果

python怎样读取pdf文件的内容

猜你喜欢