当前位置：首页 > news >正文

PDF解析黑科技：从OCR-Free到多模态大模型的进化之旅

news 2025/4/2 17:05:17

各位看官好呀！今天咱们继续来聊聊PDF解析那些事儿~ 这可是本系列的第四篇文章啦！前几期没看的小伙伴赶紧去补课（戳这里）。今天的主角是那些不用OCR也能读懂文档的"超级AI"——大型多模态模型！

三巨头登场

首先让我们掌声欢迎今天的三位主角：

TextMonkey：专治各种文档理解困难症
Vary：视觉词汇量比牛津词典还丰富
StrucTexTv3：文本图像处理界的"小钢炮"

TextMonkey：文档界的"齐天大圣"

TextMonkey是一款专为文本中心任务（如文档问答和场景文本分析）定制的大型多模态模型。

概述

TextMonkey能在有限训练资源下提升分辨率，同时保留跨窗口信息并减少因分辨率提升带来的冗余token。此外，通过多种数据和前置提示，TextMonkey已经具备了处理多任务的能力。

TextMonkey架构图

图1：TextMonkey架构概览。来源：TextMonkey论文

如图1所示，TextMonkey架构具有以下特点：

初始处理：输入图像通过分割模块被划分为不重叠的448x448像素块，这些块再被分割为更小的14x14像素块，每个小块被视为一个token
跨窗口关系增强：TextMonkey采用Shifted Window Attention机制成功整合了跨窗口连接，同时扩展了输入分辨率。此外，TextMonkey在Shifted Window Attention机制中引入零初始化，使模型能够避免对早期训练的剧烈修改
Token重采样器：用于压缩token长度，减少语言空间中的冗余。这些处理后的特征与输入问题一起由LLM分析，生成所需答案

性能表现

如图2左侧所示，TextMonkey能够准确定位和识别场景图像和文档图像中的文本。

TextMonkey可视化结果

图2：TextMonkey的可视化结果。模型生成的边界框用红色标出，真实位置用绿色框标出。来源：TextMonkey论文

此外，解析表格和图表的能力也至关重要。TextMonkey也进行了相关测试，如图3所示。

图表和表格结构化示例

图3：图表和表格结构化示例。来源：TextMonkey论文

如图3所示，TextMonkey能够将图表和表格转换为JSON格式，展现了其在下游应用中的潜力。

Vary：视觉词汇的"变形金刚"

现代大型视觉语言模型拥有庞大的通用视觉词汇表——CLIP，包含超过4亿个图像-文本对。它涵盖了大多数常见图像和视觉任务。

然而，在某些场景下，如高分辨率感知、非英语OCR和文档/图表理解，CLIP-VIT可能因低效的token化而表现不佳。这是因为它难以将所有视觉信息编码为固定数量的token（通常为256个）。

虽然mPlug-Owl和Qwen-VL尝试通过解冻其视觉词汇网络（CLIP-L或CLIP-G）来解决这个问题，但**Vary**认为这不是一个合理的方案。原因如下：

可能覆盖原始词汇知识
在相对较大的LLM（7B）上更新视觉词汇训练效率低
LLM的强大记忆能力阻止视觉词汇网络多次查看同一图像（即无法在多个epoch上训练数据集）

这引出了一个问题：我们能找到一种简化并有效增强视觉词汇的策略吗？

概述

Vary，一种高效且用户友好的方法，被提出来解决上述问题。

这种方法受到扩展普通LLM文本词汇的启发。当将英文LLM转换为另一种语言（如中文）时，需要扩大文本词汇以提高新语言下的编码效率和模型性能。直观地说，对于视觉分支，当向模型输入"外语"图像时，视觉词汇也需要扩展。

传统方法与Vary对比

图4：传统方法与Vary对比。与其他使用现成视觉词汇的模型不同，Vary的过程可分为两个阶段：视觉词汇的生成和融合。在第一阶段，Vary使用"词汇网络"和一个小型仅解码器网络通过自回归产生强大的新视觉词汇。在第二阶段，Vary将视觉词汇与原始词汇结合，高效地为LVLM提供新特征。来源：Vary论文

如图4所示，Vary中的词汇扩展过程包括两个步骤：

创建新视觉词汇：补充现有词汇（CLIP）。这个流程包括一个词汇网络和一个迷你仅解码器transformer，通过预测下一个token来训练词汇模型
合并新旧词汇：在此过程中，新旧词汇网络都被冻结，以防止视觉知识被覆盖

架构

如图5所示，Vary有两种形式：Vary-tiny和Vary-base。

Vary-tiny主要专注于生成新的视觉词汇
Vary-base则是一种新型大型多模态模型，设计用于使用这种新视觉词汇处理各种视觉任务

Vary架构概览

图5：Vary架构概览。来源：Vary论文

关于数据

Vary有多种类型的训练数据，如图6所示。

Vary的训练数据

图6：Vary的训练数据。作者绘制

以下将详细说明每种数据的具体构建过程。

文档数据

使用来自文档的高分辨率图像-文本对作为预训练新视觉词汇的主要数据集。

该过程从收集arXiv和CC-MAIN-2021-31-PDFUNTRUNCATED中的公开可获取文章样式的PDF文档开始，构成英文部分。中文部分由从互联网收集的电子书组成。

使用PyMuPDF的fitz提取每个PDF页面的文本信息，并使用pdf2image将每个页面转换为PNG图像。通过这个过程，创建了100万中文和100万英文文档图像-文本对用于训练。

图表数据

这是为了支持图表理解。

选择Matplotlib和pyecharts作为渲染工具。对于matplotlib样式的图表，已建立25万中英文图表。对于pyecharts，已建立50万中英文图表。

此外，每个图表的文本真实值被转换为python-dict形式。图表中使用的文本，如标题、x轴和y轴，都是从互联网下载的NLP语料库中随机选择的。

负面自然图像

为确保新引入的词汇不会引入噪声，Vary从COCO数据集中提取12万张图像，每张图像对应一段文本。文本部分从以下句子中随机选择：“这是一张自然图像”；“这里有一张自然图片”；“这是一张自然照片”；“这是一张自然图像”；“那是来自自然的镜头”。

LATEX渲染文档

这是为了支持公式和表格。

首先在arxiv上收集了一些.tex源文件，然后使用正则表达式提取表格、数学公式和纯文本。最后，使用准备好的新模板通过pdflatex重新渲染这些内容。

收集了10多个模板用于批量渲染。此外，每个文档页面的文本真实值被转换为mathpix markdown样式以统一格式。

通过这个构建过程，获得了50万英文页面和40万中文页面。一些样本如图7所示。

合成数据可视化

图7：合成数据可视化。来源：Vary论文

如图7所示，Vary使用pdflatex渲染文档，使用pyecharts/matplotlib渲染图表。文档数据获取中/英文文本、公式和表格。图表数据包括中/英文条形图、折线图、饼图和复合样式。

语义关联图表渲染

使用GPT-4生成一些使用相关语料库的图表，然后使用高质量语料库为Vary-base训练渲染额外的20万图表数据。

通用数据

从LAION-COCO中随机提取400万图像-文本对。在SFT阶段，使用LLaVA-80k或LLaVA-CC665k以及DocVQA和ChartQA的训练集进行微调。

尽管Vary进行了许多实验，但我们主要关注与PDF解析相关的性能。

与Nougat的细粒度文本感知对比

图8：与Nougat的细粒度文本感知对比。Vary-tiny是基于OPT-125M生成视觉词汇的模型，具有纯OCR能力，包括中文和英文。Vary-base是在Qwen-Chat 7B基础上扩展视觉词汇的模型，通过提示控制同时具备纯文档OCR和markdown格式对话能力。来源：Vary论文

如图8所示，Vary-base在英文纯文本文件上达到了与Nougat相似的性能水平。此外，Vary-base在处理公式和表格方面优于Nougat，编辑距离为0.181，F1分数为81.10%。

图9展示了Vary将图像转换为Markdown以及纯OCR的能力。

Vary-base的指令跟随能力

图9：Vary-base在优秀markdown转换或纯OCR方面的指令跟随能力。Vary-base可以根据用户提示控制文档图像输入的输出格式。来源：Vary论文

图10展示了Vary的表格识别能力。

Vary-base的Markdown/Latex格式转换能力

图10：Vary-base在表格上的Markdown/Latex格式转换能力。图片来自互联网。来源：Vary论文

StrucTexTv3：文本丰富图像的高效视觉语言模型

由于多样性、复杂性和独特理解需求，文本丰富图像对大型多模态模型提出了各种挑战。

一个重要挑战是这些图像中普遍存在的小而密集的文本，这需要高分辨率输入以进行精确文本提取。有三种方法可以解决这个问题。

像LLaVA和Qwen-VL这样的方法通常使用224x224或336x336的图像尺寸，难以捕捉这些精细细节
PALI-X和PALI-3旨在直接利用更高分辨率的图像。然而，这种方法受限于内存和计算资源，显著限制了ViT-based视觉编码器可以处理的分辨率
Monkey和UReader使用滑动窗口技术将输入图像分割成较小的块。虽然这种方法在一定程度上缓解了尺度问题，但可能引入语义不一致，影响模型的感知和理解能力

StrucTexTv3是一种高效的视觉语言模型，通过三个关键创新解决了上述挑战。

开发了一种先进的视觉语言模型，专门用于感知和理解文本丰富的图像。该模型有效解决了与高分辨率输入和复杂表示学习相关的挑战
StrucTexTv3收集了近3000万基于文本丰富图像的多模态数据点，称为TIM-30M。该数据集包括广泛的感知和理解指令学习数据
利用指令学习，StrucTexTv3展现了广泛的感知和理解能力。尽管其LLM只有1.8B，但它在各种任务和数据集上提供了优于7B LLM模型的性能

概述

StrucTexTv3概览

图11：StrucTexTv3概览。来源：StrucTexTv3论文

如图11所示，StrucTexTv3包含三个组件：

一个高效的视觉编码器，有效提取视觉特征
一个多粒度token采样器，从多尺度视觉特征中提取丰富、细粒度的视觉表示
一个LLM，理解并推理文本丰富图像中的视觉线索和语言符号

训练数据

如图12所示，StrucTexTv3构建了一个基于文本图像的大规模多模态训练数据，即TIM-30M，主要包括感知任务和理解任务。

TIM-30M数据摘要

图12：TIM-30M数据摘要。来源：StrucTexTv3论文

这里，我们将重点关注文档解析数据集的构建，这也是PDF解析中最相关的任务。

StrucTexTv3的文档解析数据源主要由三部分组成：公开可用的基准数据、arXiv数据和弱标记的内部数据集。此外，表格结构识别由FinTabNet和PubTabNet的数据支持，使我们的模型能够解析表格结构。每个表格图像表示为一个HTML序列。

**StrucTexTv3遵循Nougat**概述的数据生产过程。它从arXiv下载LaTeX源代码，将其转换为PDF格式，然后转换为相应的Markdown序列。同时，收集了大量书籍和学术论文图像，并通过商业API获取伪标签以提高模型的泛化能力。

StrucTexTv3使用提示"将图像的文本内容转换为markdown"来指导模型将输入解析为Markdown格式。

训练

训练过程包括三个阶段：

预训练阶段：目标是赋予模型感知文本的能力
多任务预训练：利用来自各种感知和认知任务的所有训练数据，使模型具备感知和认知能力。输入图像大小保持在1600x1600，最大序列长度设置为4096
监督微调阶段：应使用图12中详述的高质量基准数据进一步微调模型。StrucTexTv3保持与第二阶段相同的图像大小、序列长度和可训练参数，并在更高质量的基准上进行了额外的2000步训练