当前位置: 首页 > news >正文

Python对PDF文件页面的旋转和切割

Python对PDF文件页面的旋转和切割

利用Python的.rotate()方法和.mediabox属性对PDF页面进行旋转和切割,最终生成一个PDF。下面结合案例进行说明,本示例中的名为split_and_rotate.pdf文件在practice_files文件夹中,

示例(1):

在home目录中创建一个新的PDF,命名为rotated.pdf。将split_and_rotate.pdf中的所有页面逆时针旋转90度后保存到该文件中。原始文件如下:

截屏2024-10-09 19.17.13

下面将以上的PDF文件逆时针旋转90度后保存。

源代码如下:

from pathlib import Path
from PyPDF2 import PdfReader, PdfWriter# 定义 PDF 文件的路径,位置在当前工作目录下的 'practice_files' 文件夹中
pdf_path = Path.cwd() / 'practice_files' / 'split_and_rotate.pdf'# 读取指定路径的 PDF 文件
pdf_reader = PdfReader(str(pdf_path))# 创建一个 PDF 写入器对象,用于写入新的 PDF 文件
pdf_writer = PdfWriter()# 遍历 PDF 文件中的每一页
for page in range(len(pdf_reader.pages)):# 将当前页面旋转 -90 度,并添加到写入器中pdf_writer.add_page(pdf_reader.pages[page].rotate(-90))# 在用户的主目录下创建一个新的 PDF 文件 'rotated.pdf',以写入模式打开
with (Path.home() / 'rotated.pdf').open('wb') as f:# 将合并后的内容写入到新创建的文件中pdf_writer.write(f)

运行结果如下图:

在这里插入图片描述

代码解释

  1. 导入模块:
    • from pathlib import Path: 导入 Path 类,以方便处理文件路径。
    • from PyPDF2 import PdfReader, PdfWriter: 从 PyPDF2 导入 PdfReaderPdfWriter 类,用于读取和写入 PDF 文件。
  2. 定义 PDF 文件路径:
    • pdf_path = Path.cwd() / 'practice_files' / 'split_and_rotate.pdf': 使用 Path.cwd() 获取当前工作目录,并与 'practice_files''split_and_rotate.pdf' 连接,构建出完整的 PDF 文件路径。
  3. 读取 PDF 文件:
    • pdf_reader = PdfReader(str(pdf_path)): 使用 PdfReader 类实例化一个对象 pdf_reader,读取指定路径的 PDF 文件。此时,pdf_reader 包含了所有页面的信息。
  4. 创建 PDF 写入器:
    • pdf_writer = PdfWriter(): 实例化一个 PdfWriter 对象,用于创建新的 PDF 文件并写入内容。
  5. 遍历 PDF 文件的每一页:
    • for page in range(len(pdf_reader.pages)): 使用循环遍历 pdf_reader 中的每一页,len(pdf_reader.pages) 返回 PDF 文件的总页数。
    • pdf_writer.add_page(pdf_reader.pages[page].rotate(-90)): 取出当前页 (pdf_reader.pages[page]),调用 rotate(-90) 方法将该页旋转 -90 度(向左旋转),然后使用 add_page() 方法将旋转后的页面添加到 pdf_writer 对象中。
  6. 写入新的 PDF 文件:
    • with (Path.home() / 'rotated.pdf').open('wb') as f: 在用户的主目录下创建一个新的 PDF 文件,命名为 rotated.pdf,以二进制写入模式打开它。
    • pdf_writer.write(f): 将 pdf_writer 中的内容写入到新创建的 rotated.pdf 文件中,完成旋转操作后的 PDF 文件创建。

示例(2):

使用示例(1)中创建的rotated.pdf,将PDF中的每一页沿垂直中线分割开来,在home目录中创建一个新的PDF,命名为split.pdf。将分割后得到的页面保存在该文件中。示例源码如下:

from pathlib import Path
from PyPDF2 import PdfWriter, PdfReader
import copy# 定义 PDF 文件的路径,位置在用户的主目录下,文件名为 'rotated.pdf'
pdf_path = (Path.home() / 'rotated.pdf')# 读取指定路径的 PDF 文件
pdf_reader = PdfReader(str(pdf_path))
# 创建一个 PDF 写入器对象,用于写入新的 PDF 文件
pdf_writer = PdfWriter()# 获取第一个页面的右上角坐标
current_coords = pdf_reader.pages[0].mediabox.upper_right
# 遍历 PDF 文件中的每一页
for page in pdf_reader.pages:# 深拷贝当前页面,以创建左半边和右半边left_side = copy.deepcopy(page)right_side = copy.deepcopy(page)# 计算新坐标,将右上角的 X 坐标除以 2,Y 坐标保持不变new_coords = (current_coords[0] / 2, current_coords[1])# 设置左半边的右上角坐标为新坐标left_side.mediabox.upper_right = new_coords# 设置右半边的左上角坐标为新坐标right_side.mediabox.upper_left = new_coords# 将修改后的左半边页面添加到写入器中pdf_writer.add_page(left_side)# 将修改后的右半边页面也添加到写入器中pdf_writer.add_page(right_side)# 在当前工作目录下创建一个新的 PDF 文件 'split.pdf',以写入模式打开
with Path.cwd().joinpath('split.pdf').open('wb') as f:# 将合并后的内容写入到新创建的文件中pdf_writer.write(f)

运行结果如下:

截屏2024-10-09 19.30.03

代码解释

  1. 导入模块:
    • from pathlib import Path: 导入 Path 类,用于处理文件路径。
    • from PyPDF2 import PdfWriter, PdfReader: 从 PyPDF2 中导入 PdfWriterPdfReader,用于读取和生成 PDF 文件。
    • import copy: 导入 copy 模块,以便可以进行深拷贝操作。
  2. 定义 PDF 文件路径:
    • pdf_path = (Path.home() / 'rotated.pdf'): 使用 Path.home() 获取用户主目录,并与 'rotated.pdf' 拼接,构建出完整的 PDF 文件路径。
  3. 读取 PDF 文件:
    • pdf_reader = PdfReader(str(pdf_path)): 实例化一个 PdfReader 对象,读取指定路径的 PDF 文件。这将把文件中的所有页面信息加载到内存中。
  4. 创建 PDF 写入器:
    • pdf_writer = PdfWriter(): 实例化一个 PdfWriter 对象,用于创建新的 PDF 文件并写入内容。
  5. 获取页面坐标:
    • current_coords = pdf_reader.pages[0].mediabox.upper_right: 获取 PDF 的第一个页面的右上角坐标,这个坐标用于确定后续生成的两部分的尺寸。
  6. 遍历 PDF 文件中的每一页:
    • for page in pdf_reader.pages:: 遍历所有页面。
  7. 创建页面的深拷贝:
    • left_side = copy.deepcopy(page): 创建当前页面的一个深拷贝,用于生成左半边页面。
    • right_side = copy.deepcopy(page): 同样深拷贝当前页面,用于生成右半边页面。
  8. 计算新坐标:
    • new_coords = (current_coords[0] / 2, current_coords[1]): 将右上角的 X 坐标除以 2,保留 Y 坐标不变,计算出左半边和右半边的新边界坐标。
  9. 设置左右页面的坐标:
    • left_side.mediabox.upper_right = new_coords: 更新左半边页面的右上角坐标。
    • right_side.mediabox.upper_left = new_coords: 更新右半边页面的左上角坐标。
  10. 写入修改后的页面:
    • pdf_writer.add_page(left_side): 将左半边页面添加到 PDF 写入器。
    • pdf_writer.add_page(right_side): 将右半边页面也添加到 PDF 写入器。
  11. 输出新的 PDF 文件:
    • with Path.cwd().joinpath('split.pdf').open('wb') as f: 创建一个新的 PDF 文件,命名为 split.pdf,在当前工作目录下,以二进制写入模式打开。
    • pdf_writer.write(f): 将写入器中的内容(即左半边和右半边的页面)写入到新创建的 split.pdf 文件中。

希望此文对您有所启发和帮助,欢迎点赞、关注、转发!!!


http://www.mrgr.cn/news/46797.html

相关文章:

  • 【Ubuntu 24.04】虚拟机常见问题解决
  • Docker 的安装和基本使用[SpringBoot之Docker实战系列] - 第535篇
  • Flutter Xcode 16+ iOS 18.1 使用image_pickers无法弹出选择图片的视图问题
  • 3 生成器(Builder)模式
  • 【数模学习笔记】插值算法和拟合算法
  • RK3568-rk809rtc休眠唤醒
  • 高清解压视频素材下载指南
  • 如何在 Ubuntu VPS 上从 Apache Web 服务器迁移到 Nginx
  • SAP_FI模块-公司间资产转移ABT1N操作
  • 【hot100-java】二叉树的最近公共祖先
  • 酸枣病虫害智能化防控系统的探索与实践,基于YOLOv9全系列【yolov9/t/s/m/c/e】参数模型开发构建枣类作物种植场景下酸枣病虫害智能检测识别系统
  • Python对PDF文件的合并操作
  • 浏览器动态移动的小球源码分享
  • Ts 工具类型汇总
  • 电层相关 -- 支路板与线路板
  • 系统架构设计师⑧:软件工程-需求工程
  • phpstrom 部署ftp 连接失败 宝塔ftp失败
  • 基于SpringBoot+Vue的Cosplay交流论坛系统
  • Visual Studio 2022 安装和配置 vcpkg
  • 次卡办理——未来之窗行业应用跨平台架构
  • windows C++-移除界面工作线程(一)
  • HashMap 和 Hashtable 有什么区别?
  • Imported target “metis“ includes non-existent path
  • 【ShuQiHere】配置和使用 VS Code + LaTeX Workshop:全方位指南
  • 动态规划算法专题(六):回文串问题
  • k8s中pod的管理