专业接各种小工具软件及爬虫软件开发，联系Q：2391047879

Python小工具资源库 > 小工具 >

基于PyPDF2的PDF文件合并器

发布时间: 2025-09-04 17:00:02 浏览量: 本文共包含721个文字，预计阅读时间2分钟

在日常办公场景中，PDF文件的合并需求屡见不鲜——学生需要整合多份课件，财务人员汇总报表，或设计师拼接设计稿。手动操作不仅效率低，还容易出错。Python生态中的PyPDF2库为此提供了轻量化解决方案，仅需几行代码即可实现批量处理。

核心功能与安装

PyPDF2作为纯Python库，无需依赖外部软件，通过`pip install PyPDF2`即可安装。其核心模块`PdfMerger`支持多种合并模式：

顺序合并：按文件名列表逐个拼接；

动态插入：指定某一文件插入到目标位置；

跨文件提取：抽取特定页面重组为新文档。

以下为典型代码示例：

```python

from PyPDF2 import PdfMerger

merger = PdfMerger

for pdf in ["file1.pdf", "file2.pdf"]:

merger.append(pdf)

merger.write("merged_output.pdf")

merger.close 防止内存泄漏

```

进阶场景适配

部分用户会遇到加密文件合并失败的问题。PyPDF2提供了`decrypt`方法，但需注意若密码错误会导致程序中断。建议先单独处理加密文件：

```python

with open("locked.pdf", "rb") as f:

reader = PdfReader(f)

if reader.is_encrypted:

reader.decrypt("password") 需提前确认密码有效性

merger.append(reader)

```

对于需要调整页面顺序的情况，可通过`merge`方法的`pages`参数实现局部插入。例如将B文档的第3-5页插入到A文档末尾：

```python

merger.append("A.pdf")

merger.merge(position=-1, fileobj="B.pdf", pages=(3,5))

```

性能与兼容性

实测显示，PyPDF2处理100MB以内文件速度较快，但超过500MB时可能出现内存瓶颈。此时可改用`PdfReader`逐页读取。需注意该库暂不支持PDF 2.0标准，若遇到此类文件需先转换为1.7版本格式。

典型问题处理

路径错误：建议使用`os.path.abspath`转换相对路径；

版本冲突：PyPDF2 3.0+版本API与旧版不兼容，若报错需检查方法名；

输出文件空白：未执行`close`方法可能导致缓存未写入磁盘。

目前GitHub上已有开发者基于PyPDF2封装了GUI工具（如PDFMerger-Desktop），支持拖拽操作与进度条显示，适合非技术人员使用。但对于开发人员，直接调用API仍是最高效的选择。

> 加密文档需在合并前单独解密

> 合并后的文档书签信息可能丢失

> 大文件处理建议分批次合并