当前位置: 首页 > news >正文

PDF文件转Markdown,基于开源项目marker

首先我们来问下deepseek

为啥要选marker呢

基于深度学习,一看就逼格拉满。搞科研必备,效果应该不会太差。

看下官网

https://github.com/VikParuchuri/marker

在这里插入图片描述

一看头像是个印度佬,自吹——又快又好。那就试试吧。

安装步骤

安装Anaconda

https://www.anaconda.com/docs/main
在这里插入图片描述

进入Anaconda

在这里插入图片描述

进入conda命令行

在这里插入图片描述

安装系统级依赖

Poppler(PDF解析工具):

下载地址:Releases · oschwartz10612/poppler-windows · GitHub
解压到 D:\Information_Technology\App\pdf2md_package(路径可自定义,建议把这一套全放一个文件夹)

Tesseract OCR(用于OCR识别):

下载地址:Home · UB-Mannheim/tesseract Wiki · GitHub
安装时勾选中文语言包,记住安装路径(如 D:\Information_Technology\App\pdf2md_package\Tesseract-OCR)

并添加到系统环境变量
在这里插入图片描述
查看是否Tesseract OCR是否安装成功,是否安装中文库
在这里插入图片描述
如上,安装成功

创建虚拟环境

conda create -n marker_env python=3.10  //  还未试过3.12,理论上3.12会向下兼容conda env list //  查看创建的虚拟环境是否成功conda activate marker_env  //  激活环境

安装PyTorch、Marker

1、安装PyTorch(CPU版本,无显卡用户用此命令):

pip3 install torch torchvision torchaudio

安装PyTorch(国内镜像加速)
Marker依赖PyTorch,根据硬件选择安装命令:

  • CPU版本(无GPU时使用):
    pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple
    
  • GPU版本(需CUDA支持):
    访问PyTorch官网生成对应命令,替换为清华镜像源:
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 -i https://pypi.tuna.tsinghua.edu.cn/simple
    

有显卡的、可以在官网上的Start Locally | PyTorch,根据自己电脑的配置,选择后在箭头处复制语句后执行。(我的是图中这条命令行)
在这里插入图片描述

2、安装Marker,耐心等待插件安装。

pip install marker-pdf

使用国内镜像源安装marker-pdf

pip install marker-pdf -i https://pypi.tuna.tsinghua.edu.cn/simple

模型下载配置

Marker运行时需下载预训练模型(如布局分割、OCR模型),默认从Hugging Face下载。国内用户可通过以下方式加速:

  1. 配置HF镜像源
    设置环境变量(临时生效):

    $env:HF_ENDPOINT = "https://hf-mirror.com"
    

    或永久生效:在系统环境变量中添加HF_ENDPOINT=https://hf-mirror.com

  2. 手动下载模型(可选)
    若自动下载失败,可从HF镜像站手动下载模型至本地路径(默认路径为~/.cache),参考项目文档中的模型列表。

执行marker_single 命令会自动下载模型到如下路径
模型自动下载的位置:

C:\Users\longz\AppData\Local\datalab\datalab\Cache\models 

在这里插入图片描述


测试文件转换

准备一个PDF文件,路径不含中文或空格

在这里插入图片描述

执行转换命令:

marker_single D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf --languages eng+chi_sim --llm_service cpu --output_dir D:\Information_Technology\App\pdf2md_package\output_md


如果是使用GPU的,并且使用默认的Surya

marker_single /path/to/yourfile.pdf /path/to/output/folder --langs "zh,en"
命令的解释:
   --命令里没有其他博主的--batch_multiplier 2,有这个的都是有显卡的;-- marker_single:调用marker_single执行转换操作;-- D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf:需要转换的文件的所在目录(可自定义);--languages eng+chi_si:设置语言,可查官网或帮助,支持的语言还是有蛮多的;--llm_service cpu:强制使用CPU,也可以不加此句;--output_dir:文件转换后的存放目录(可自定义)。

看下效果

在这里插入图片描述

效果拉满,格式基本跟原文档一致,甚至更简洁美观。印度佬确实有一手

在这里插入图片描述
在这里插入图片描述


http://www.mrgr.cn/news/95506.html

相关文章:

  • 面试复习-基础网络+运维知识
  • c++ STL
  • 【机器学习】机器学习工程实战-第2章 项目开始前
  • LLM - 重排序(Rerank)
  • 【计算机网络】网络简介
  • C语言入门教程100讲(8)算术运算符
  • C语言入门教程100讲(3)代码注释
  • C语言入门教程100讲(7)类型转换
  • 【前端】Visual Studio Code安装配置教程:下载、汉化、常用组件、基本操作
  • C语言入门教程100讲(4)输入输出
  • 【AI学习笔记】Coze平台实现将Excel文档批量导入数据库全过程
  • C++学习之网盘项目单例模式
  • MySQL表的增加、查询、修改、删除的基础操作
  • 【HDLBits】Circuits—Combinational Logic合集(包含答案推导过程)
  • 分享最近前端面试遇到的一些问题
  • 【模板】计算几何入门
  • python:music21 构建 LSTM+GAN 模型生成爵士风格音乐
  • 挂谷猜想的证明错误百出
  • 使用flask_restful快速构建接口
  • Python数据可视化工具:六西格玛及其基础工具概览