专业接各种小工具软件及爬虫软件开发，联系Q：2391047879

Python小工具资源库 > 小工具 >

基于PyPDF2的PDF合并与拆分工具

发布时间: 2025-05-03 11:50:45 浏览量: 本文共包含1028个文字，预计阅读时间3分钟

在办公场景或学术研究中，PDF文档的合并与拆分需求频繁出现。无论是整合多份报告还是提取合同中的关键页，手动操作既低效又容易出错。基于Python的PyPDF2库为这类任务提供了轻量级解决方案，无需依赖付费软件，几行代码即可实现批量处理。

功能核心：合并与拆分逻辑

PyPDF2的核心功能围绕`PdfReader`与`PdfWriter`两个类展开。合并文档时，需遍历多个PDF文件，逐页提取内容并追加至写入器；拆分文档则需根据页码范围或自定义规则提取特定页。例如，将十份周报合并为月报，或从一本电子书中提取某个章节。

代码示例：合并PDF文件

```python

基于PyPDF2的PDF合并与拆分工具

from PyPDF2 import PdfReader, PdfWriter

def merge_pdfs(output_path, input_paths):

writer = PdfWriter

for path in input_paths:

reader = PdfReader(path)

for page in reader.pages:

writer.add_page(page)

with open(output_path, "wb") as output_file:

writer.write(output_file)

调用示例

merge_pdfs("merged.pdf", ["file1.pdf", "file2.pdf"])

```

此代码遍历所有输入文件，逐页添加到`PdfWriter`对象，最终生成合并后的文档。需注意文件路径的读取权限及编码格式兼容性。

代码示例：按页码范围拆分PDF

```python

def split_pdf(input_path, output_path, start_page, end_page):

reader = PdfReader(input_path)

writer = PdfWriter

for page_num in range(start_page-1, end_page):

writer.add_page(reader.pages[page_num])

with open(output_path, "wb") as output_file:

writer.write(output_file)

调用示例：提取第3至第5页

split_pdf("source.pdf", "split_part.pdf", 3, 5)

```

PyPDF2的页码索引从0开始，实际调用时需将用户输入的页码减1。若拆分规则复杂（如按书签或关键词），需结合文本解析逻辑扩展功能。

进阶技巧：加密与异常处理

PyPDF2支持对输出文件加密，防止未授权访问。通过`encrypt`方法设置密码，例如：

```python

writer.encrypt(user_password="123456")

```

但需注意，加密功能仅适用于新生成的文件，无法直接修改已加密的PDF。

实际应用中，需增加异常捕获逻辑。例如处理损坏文件时，通过`try-except`块跳过错误：

```python

try:

reader = PdfReader("corrupted.pdf")

except Exception as e:

print(f"文件读取失败：{str(e)}")

```

局限性与替代方案

PyPDF2对复杂PDF（如含动态表单或高级加密）的支持有限。若遇到报错`PyPDF2.errors.PdfReadError`，可尝试换用`pdfplumber`或`PyMuPDF`库解析内容。处理扫描版PDF（图片格式）时，需结合OCR技术提取文本，超出PyPDF2的能力范围。

应用场景举例

学生群体：合并多门课程课件，按章节拆分教材。

办公场景：批量合并财务报表，提取合同中的签字页归档。

开发集成：将PDF处理功能嵌入Web服务，供团队内部调用。

开发过程中，建议通过`pip install PyPDF2`安装最新版本，并定期查阅官方文档更新API调用方式。对于高频使用场景，可封装为命令行工具或GUI应用，进一步提升操作便捷性。