每日推荐Python工具库:PyPDF2
PyPDF2 是一个非常有用的 Python 库,主要用于处理 PDF 文件。它能让你读取、修改、合并、拆分和加密 PDF 文件。以下是一些 PyPDF2 的常见功能:
主要功能
读取 PDF 文件:
- 你可以从 PDF 文件中提取文本、图像及其元数据。
- 支持读取 PDF 的各个页面内容。
合并 PDF 文件:
- 能够将多个 PDF 文件合并成一个文件。
- 可以按页面顺序合并,或按具体需求合并特定页面。
拆分 PDF 文件:
- 从一个 PDF 文件中拆分出一个或多个页面。
- 创建新的 PDF 文件,或者提取至其他 PDF。
加密和解密 PDF 文件:
- 支持为 PDF 文件添加密码保护。
- 也可以尝试去除已有的 PDF 密码(前提是你有权限)。
旋转和裁剪页面:
- 对 PDF 的页面进行旋转(如顺时针旋转90度等)。
- 裁剪页面以删除边缘或调整页面大小。
安装
可以使用 pip 简单地安装 PyPDF2:
pip install PyPDF2
简单示例
读取 PDF 文件
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
number_of_pages = len(reader.pages)
print(f"The PDF has {number_of_pages} pages.")
for page in reader.pages:
print(page.extract_text())
合并 PDF 文件
from PyPDF2 import PdfWriter, PdfReader
merger = PdfWriter()
pdfs = ["file1.pdf", "file2.pdf"]
for pdf in pdfs:
reader = PdfReader(pdf)
for page in reader.pages:
merger.add_page(page)
with open("merged.pdf", "wb") as f_out:
merger.write(f_out)
拆分 PDF 文件
from PyPDF2 import PdfWriter, PdfReader
reader = PdfReader("example.pdf")
writer = PdfWriter()
# 将第一页写入新的 PDF 文件
writer.add_page(reader.pages[0])
with open("split.pdf", "wb") as f_out:
writer.write(f_out)
PyPDF2 是一个功能强大且简单易用的工具,适合用来处理大多数 PDF 操作。如果你需要处理 PDF 文件,同时又在使用 Python,那么这个库是一个很好的选择。