当前位置: 首页 > news >正文

Python pdf转换为html

描述:

最近在工作中遇到 pdf转换为html,找了很多个库,最后发现两个好用的pdf转html的库,特此记录

 1.方法一:使用Spire.PDF for Python

 Spire.PDF是收费的,但是pdf转换为html的效果是最好的

 pip install Spire.PDF
from spire.pdf.common import *
from spire.pdf import *# spire.pdf pdf转换为html
def spire_convert_html(pdf_path, html_path):try:# 创建一个 PdfDocument 类的对象doc = PdfDocument()# 加载一个 PDF 文档doc.LoadFromFile(pdf_path)# 将文档转换为 HTML 格式并保存doc.SaveToFile(html_path, FileFormat.HTML)doc.Close()except Exception as e:print(e)

2.方法二:使用PyMuPDF(fitz) pdf转换为html

PyMuPDF是开源免费的,效果还可以

tqdm是Python进度条库,若不用可以不安装该库

pip install PyMuPDF
pip install tqdm  
import fitz
from tqdm import tqdm# PyMuPDF(fitz) pdf转换为html
def fitz_convert_html(pdf_path, html_path):try:doc = fitz.open(pdf_path)html_content = ("<!DOCTYPE html><html lang=\"zh-CN\"><head><meta ""charset=\"UTF-8\"><title>Title</title></head><body>")# tqdm是Python进度条库, 若不用: for page in docfor page in tqdm(doc):html_content += page.get_text('html')html_content += "</body></html>"# 保存htmlwith open(html_path, 'w', encoding='utf8') as f:f.write(html_content)except Exception as e:print(e)

http://www.mrgr.cn/news/28443.html

相关文章:

  • Docker的基本概念、安装步骤以及一些简单的用法
  • JWT 过期后 自动刷新方案
  • SpringCloud核心组件(五)
  • MacOS编译hello_xr——记一次CMake搜索路径限制导致的ANDROID_NATIVE_APP_GLUE not found
  • World of Warcraft [WeakAuras]Barney Raid Kit - Collapsing Star Indicator
  • 微信小程序——实现二维码扫描功能(含代码)
  • vmvare如何给centos7 设置静态IP地址
  • 计算机的错误计算(九十五)
  • 【C++学习入门】6.左值右值
  • 探索人工智能的未来趋势
  • 24.9.16数据结构|平衡二叉树
  • [项目][WebServer][Makefile Shell]详细讲解
  • 机器学习的入门指南
  • re题(22)BUUFCTF-[ACTF新生赛2020]rome
  • 速盾:cdn免备案免费加速?
  • Spring为什么要用三级缓存解决循环依赖?
  • Robot Operating System——带有协方差矩阵的线速度和角速度
  • 世界排名第一的数码照片和图形放大软件PhotoZoom Pro 9
  • 【ShuQiHere】 进位回补与溢出问题全解:二补码与一补码的进阶指南
  • 指纹与指甲检测系统源码分享
  • 掌握回流与重绘面试回答:优化网页加载与响应速度
  • vscode对python进行多卡调试
  • 微信小程序----日期时间选择器(自定义时间精确到分秒)
  • (183)时序收敛--->(33)时序收敛三三
  • 《并发之危:错误实现的并发数据结构如何“摧毁”程序》
  • 模型训练的过程中对学习不好的样本怎么处理更合适