使用 Python 合并 PDF 文件
在日常办公和文档管理中,我们经常需要将多个独立的 PDF 文件整合成一个完整的文档。无论是将分散的章节合并成完整的报告,还是将多份合同文件整理为单一档案,PDF 合并操作都是一项非常实用的技能。 本文将介绍如何使用 Python 和 Spire.PDF 库来合并多个 PDF 文件,包括简单的顺序合并、选择性页面导入以及基于流的合并等多种方法,帮助您高效地完成文档整合任务。 合并 PDF 文件在实际工作中有着广泛的应用场景: 通过 Python 自动化这一过程,可以快速处理大量文件,避免手动操作的繁琐和出错风险。 首先,需要安装 Spire.PDF for Python 库。可以通过 pip 命令轻松完成安装: 安装完成后,即可在 Python 脚本中导入该库并使用其提供的文档合并功能。 除了简单的全文合并,Spire.PDF 还允许我们创建一个全新的 PDF 文档,并从现有的多个 PDF 文件中挑选特定页面或页面范围进行组合。这种方法非常适合需要对页面顺序进行重组或仅提取部分内容的场景。 以下代码演示了如何从三个不同的 PDF 文件中提取特定页面,并将它们整合到一个新的文档中: 这段代码展示了精准控制页面合并的两种核心技术: 通过这种方式,你可以打破原有的文档结构,像积木一样自由组合来自不同来源的页面,生成一个完全定制化的新 PDF 文件。 除了基于文档对象的合并方式,Spire.PDF 还提供了基于流的合并功能。这种方法特别适合处理来自网络或内存中的 PDF 数据,无需先将数据保存到磁盘文件。 以下示例展示了如何通过流的方式合并多个 PDF 文件: 这种基于流的合并方法有以下优势: PDF 合并功能在实际工作中有广泛的应用场景: 当需要将某个文件夹中的所有 PDF 文件按名称顺序合并时,可以编写批处理函数来自动化这一过程。以下是一个实用的批量合并示例: 这个函数会自动扫描指定文件夹中的所有 PDF 文件,按文件名排序后依次合并,非常适合处理章节化的文档或系列报告。 企业可以将各部门提交的独立报告合并成一份综合年度报告,保持整体结构的同时方便统一分发和归档。 法务部门可以将主合同、附件、补充协议等相关文件合并为一个完整的合同包,便于管理和查阅。 将多个章节的 PDF 文件合并成完整的电子书,为读者提供连续的阅读体验。 在进行 PDF 合并时,以下技巧可以帮助获得更好的结果: 通过本文的介绍,我们学习了使用 Python 和 Spire.PDF 库合并 PDF 文件的多种方法: 这些技术为 PDF 文档的整合和管理提供了强大的工具。掌握这些技能后,您将能够高效地合并多个 PDF 文件,将分散的文档资源整合为统一的完整文档,显著提升工作效率和文档管理的专业性。为什么需要合并 PDF 文件?
环境准备
pip install Spire.PDF基础合并:通过选择页面构建新 PDF
使用 InsertPage 和 InsertPageRange 方法
from spire.pdf import *
from spire.pdf.common import *
# 定义要处理的 PDF 文件路径
file1 = "示例1.pdf"
file2 = "示例2.pdf"
file3 = "示例3.pdf"
files = [file1, file2, file3]
# 加载所有 PDF 文件
pdfs = []
for file in files:
# 实例化 PdfDocument 对象并加载文件
doc = PdfDocument()
doc.LoadFromFile(file)
pdfs.append(doc)
# 创建一个新的空 PDF 对象(用于存放合并后的页面)
newPdf = PdfDocument()
# 策略 1:插入单个页面 (InsertPage)
# 将第一个文档的第 1 页(索引 0)插入新文档
newPdf.InsertPage(pdfs[0], 0)
# 将第二个文档的第 2 页(索引 1)插入新文档
newPdf.InsertPage(pdfs[1], 1)
# 策略 2:批量插入页面范围 (InsertPageRange)
# 将第三个文档的第 1 页到第 2 页(索引 0 到 1)一次性插入新文档
newPdf.InsertPageRange(pdfs[2], 0, 1)
# 保存合并后的新 PDF 文档
newPdf.SaveToFile("output/复制页面合并PDF.pdf")
# 关闭资源
newPdf.Close()
for pdf in pdfs:
pdf.Close()
InsertPage,这种方法在处理连续章节合并时效率更高。高级合并:使用流进行合并
使用 PdfMerger.MergeByStream 方法
from spire.pdf.common import *
from spire.pdf import *
# 定义输入文件路径和输出流
inputFile1 = "./Demos/Data/MergePdfsTemplate_1.pdf"
inputFile2 = "./Demos/Data/MergePdfsTemplate_2.pdf"
inputFile3 = "./Demos/Data/MergePdfsTemplate_3.pdf"
outputFile = Stream("MergeFilesByStream.pdf")
# 创建 PDF 文档流
stream1 = Stream(inputFile1)
stream2 = Stream(inputFile2)
stream3 = Stream(inputFile3)
# 将所有流放入列表
streams = [stream1, stream2, stream3]
# 创建合并选项
mergeOp = MergerOptions()
# 通过流合并 PDF 文件
PdfMerger.MergeByStream(streams, outputFile, mergeOp)MergerOptions 类允许您配置合并过程中的各种选项,例如是否保留书签、如何处理元数据等。虽然本示例使用了默认设置,但在实际应用中可以根据需要进行自定义配置。实际应用
批量合并文件夹中的所有 PDF
from spire.pdf.common import *
from spire.pdf import *
import os
import glob
def MergePdfFolder(input_folder: str, output_file: str):
"""将文件夹中的所有 PDF 文件按名称顺序合并"""
# 获取文件夹中所有的 PDF 文件并按名称排序
pdf_files = sorted(glob.glob(os.path.join(input_folder, "*.pdf")))
if not pdf_files:
print("未找到 PDF 文件")
return
print(f"找到 {len(pdf_files)} 个 PDF 文件,开始合并...")
# 加载第一个 PDF 文档作为基础文档
main_doc = PdfDocument()
main_doc.LoadFromFile(pdf_files[0])
print(f"已加载基础文档: {os.path.basename(pdf_files[0])}")
# 依次将其他文档追加到基础文档
for i in range(1, len(pdf_files)):
temp_doc = PdfDocument()
temp_doc.LoadFromFile(pdf_files[i])
main_doc.AppendPage(temp_doc)
temp_doc.Close()
print(f"已合并: {os.path.basename(pdf_files[i])}")
# 保存合并后的文件
main_doc.SaveToFile(output_file)
main_doc.Close()
print(f"\n合并完成!输出文件: {output_file}")
print(f"总共合并了 {len(pdf_files)} 个文件")
# 使用示例
input_folder = "./PDF文档"
output_file = "合并结果.pdf"
MergePdfFolder(input_folder, output_file)生成综合报告
合同文件整理
电子书制作
实用技巧
总结
AppendPage 方法将整个文档追加到目标文档末尾InsertPage 方法选择性地将特定页面插入到目标文档PdfMerger.MergeByStream 方法通过流进行高效合并