当前位置：首页 > news >正文

Python pdf转换为html

news 2026/1/3 3:59:34

描述：

最近在工作中遇到 pdf转换为html,找了很多个库，最后发现两个好用的pdf转html的库，特此记录

1.方法一：使用`Spire.PDF for Python`

Spire.PDF是收费的,但是pdf转换为html的效果是最好的

 pip install Spire.PDF

from spire.pdf.common import *
from spire.pdf import *# spire.pdf pdf转换为html
def spire_convert_html(pdf_path, html_path):try:# 创建一个 PdfDocument 类的对象doc = PdfDocument()# 加载一个 PDF 文档doc.LoadFromFile(pdf_path)# 将文档转换为 HTML 格式并保存doc.SaveToFile(html_path, FileFormat.HTML)doc.Close()except Exception as e:print(e)

2.方法二：使用PyMuPDF(fitz) pdf转换为html

PyMuPDF是开源免费的，效果还可以

tqdm是Python进度条库，若不用可以不安装该库

pip install PyMuPDF
pip install tqdm

import fitz
from tqdm import tqdm# PyMuPDF(fitz) pdf转换为html
def fitz_convert_html(pdf_path, html_path):try:doc = fitz.open(pdf_path)html_content = ("<!DOCTYPE html><html lang=\"zh-CN\"><head><meta ""charset=\"UTF-8\"><title>Title</title></head><body>")# tqdm是Python进度条库, 若不用: for page in docfor page in tqdm(doc):html_content += page.get_text('html')html_content += "</body></html>"# 保存htmlwith open(html_path, 'w', encoding='utf8') as f:f.write(html_content)except Exception as e:print(e)

查看全文

http://www.mrgr.cn/news/28443.html