MinerU:PDF文档提取工具
目录
- docker一键启动
- 本地配置
- 下载模型权重文件
- demo.py
- 使用命令行启动
- GPU使用情况
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .
docker一键启动
有点问题,晚点更新
本地配置
就是在Python环境中配置依赖和安装包
根据需求中下载
可以pip install requirements-docker.txt
其中最难安装的是detectron2,因为直接pip是找不到的,而且他有CUDA版本要求在12.0以上
版本不够还需要先升级CUDA版本
可以通过下面命令安装
python -m pip install 'git+https://gitclone.com/github.com/facebookresearch/detectron2.git'
所有依赖安装好之后,安装应用
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
最后查看一下版本号
magic-pdf --version
下载模型权重文件
pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py
根目录中已经安装了magic-pdf.json
demo.py
然后试了一下demo.py,解析一个13页的论文
大概每一页平均需要50s
demo解析得到了markdown格式的,但是没有图片,
使用命令行启动
magic-pdf -p demo1.pdf -o ./output
以及横着的表
layout.pdf,将不同的元素用不同颜色框
第二种格式:spans.pdf
GPU使用情况
还未使用GPU加速