当前位置：首页 > news >正文

合合信息智能文档处理百宝箱：强力驱动，加速文档类应用研发进程

news 2025/4/29 9:18:45

合合信息智能文档处理百宝箱：强力驱动，加速文档类应用研发进程

文章目录

- 合合信息智能文档处理百宝箱：强力驱动，加速文档类应用研发进程
- - 可视化文档解析前端TextInParseX
  - - 使用体验
  - 向量化Acge-embedding模型
  - - 使用体验
  - 文档解析测评工具Markdown_tester
  - - 使用体验
  - 百宝箱场景应用
  - - 知识库（RAG）
    - 智能文档抽取（OpenKIE）
    - 大模型预训练语料与数据治理快速入库
    - 文档翻译（Document Translate）
  - 结语

目前，市面上文档解析工具繁杂无序，缺乏统一评估标准，集成难度大、调试周期长，给个人开发者及中小企业带来沉重负担。为此，合合信息推出智能文档处理"百宝箱"，通过可视化文档解析前端、向量化Acge-embedding模型、定量测评工具，为开发者提供便捷产品效果评估手段，助力项目快速落地

可视化文档解析前端TextInParseX

在这里插入图片描述

TextInParseX 通用文档解析是一款大模型解析工具，支持将PDF文档、JPG、IMG图像等文件快速转换为 Markdown格式，并具备各类表格、公式的解析能力，帮助大语言模型完成数据清洗、文档问答任务，提高文档处理效率和准确性

1、丰富可视化与交互功能：TextInParseX 前端组件提供全面文档可视化功能，能够预览并渲染主流图片格式（JPG、PNG等）和PDF文件，用户可以通过缩放和旋转功能轻松调整文档视图，更细致地查看文档内容，支持Markdown 结果渲染，准确展示各级标题、文本和表格，为用户提供直观阅读体验

2、深度解析与元素溯源：TextInParseX 具备强大文档解析能力，能够提取并展示文档中各类元素，包括表格、公式、图片等，支持解析元素文档位置溯源，即在原文中画框标注各元素位置，用户可以通过点击画框直接跳转到相应解析结果，双向跳转功能大大提高用户审核校对文档效率

3、灵活接口调用与配置：TextInParseX 基于ES6和React框架开发，提供灵活接口调用选项和参数配置功能，用户可以根据自己需求配置不同参数组合，获取更精确解析结果，支持在GitHub上检索 TextInParseX 获取更多相关信息和社区支持，方便用户进行二次开发和功能扩展

在这里插入图片描述

表格识别效果好

能准确识别各种格式表格，包括有线表、无线表、密集表，并支持各种类型合并单元格识别与还原

支持多种扫描内容

基于合合多年文档识别积累，能良好处理图片、扫描内容、手机照片、截屏等内容

阅读顺序还原准

理解和还原文档结构和元素排列，确保阅读顺序准确性，支持多栏布局的论文、年报、业务报告等内容

使用体验

Textin控制台将需要导出为Markdown格式的文件传入

在这里插入图片描述

导出结果展示，文档解析精准度极高，对于文档中的各一级标题、二级标题（乃至更细致的层级标题）均能准确识别并清晰呈现

在这里插入图片描述

向量化Acge-embedding模型

在这里插入图片描述

合合信息推出的一款先进的文本向量化模型：ACGE_Text_Embedding模型，采用俄罗斯套娃表征学习框架，能够生成一个嵌套且多粒度的表示向量，可以独立用于不同任务，同时保持高度的准确性与信息丰富性，灵活适应不同计算资源需求，无缝地融入多种表示学习框架

训练阶段MRL框架会根据预设的向量维度（例如64、128直至2048、3072等）分别计算多个损失值，以此在单次训练周期内即可获取多种维度文本表征，由粗至细层次化表示策略，显著增强了模型灵活性，极大缩减推理与部署阶段额外开销

在这里插入图片描述

高精度与高效率：ACGE-Embedding模型在MTEB中文榜单上取得第一名成绩，展现了其高精度与高效率特点，和其它开源模型相比，ACGE模型较小，占用资源少，同时支持可变嵌入维度，能够根据具体场景合理分配资源，实现高效处理

灵活性与可扩展性：ACGE-Embedding模型采用了俄罗斯套娃表征学习（MRL）技术，使得文本嵌入模型在推理时具备可变 Embedding 大小的能力，提高模型灵活性，使得文档块向量库能够实时动态更新，实现低成本高扩展

强大泛化能力与适应性：ACGE-Embedding 模型通过对比学习技术、数据挖掘、多任务混合训练、持续学习等方法，提升模型泛化能力与适应性，使模型能够处理各种复杂下游任务，如文本分类、聚类、成对分类、重排序、检索、语义文本相似性等，避免引入新数据后模型灾难性遗忘问题

使用体验

1、安装依赖：使用acge_text_embedding模型之前，需要安装sentence_transformers库，使用pip进行安装
pip install --upgrade sentence_transformers
2、加载模型：安装完成后，使用以下代码加载acge_text_embedding模型
from sentence_transformers import SentenceTransformer，model = SentenceTransformer('acge_text_embedding')
3、模型使用

文本向量化：使用model.encode()方法对文本进行向量化

文本列表：
sentences = ["我喜欢这本书", "我很爱读这本书"]
向量化：
embeddings = model.encode(sentences, normalize_embeddings=True)
计算相似度：文本向量后，可以使用余弦相似度等方法计算文本之间相似度

计算两个文本之间相似度：
similarity = embeddings[0] @ embeddings[1].T

文档解析测评工具Markdown_tester

在这里插入图片描述

文档解析测评工具Markdown_Tester，通过定量测评展示各解析产品具体表现，帮助用户聚焦于业务场景，快速、高效评估各款解析产品在业务场景下的能力，用于对 Markdown 文档进行相似性评价（段落、标题、表格、公式维度）

全面性：涵盖表格、段落、标题、阅读顺序、公式等多维度，能够全面评估解析产品性能

准确性：通过定量测评与具体指标计算，准确反映各解析产品表现

便捷性：支持上传任意样本进行测评，操作简单便捷

可视化：输出结果包括直观雷达图，直观比较与分析各解析产品性能

使用体验

1、安装软件包
./install.sh
2、待测评样本按照下述方式放置
dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/
3、使用命令如下

path_to_pred_md：预测值文件所在文件夹
path_to_gt_md：真值文件所在文件夹
python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md
4、运行结果

百宝箱场景应用

知识库（RAG）

在这里插入图片描述

RAG（知识库）是先进文档处理技术，超越传统方法仅基于字符长度进行索引、检索和生成内容的局限，通过深入理解文档内容逻辑，将文本智能地分块，并生成分块摘要，精准识别并提取文档中的关键元素（文本、图像、表格等）显著提高处理效率，优化输出效果

智能文档抽取（OpenKIE）

在这里插入图片描述

智能文档抽取（OpenKIE）从各类非结构化或半结构化的文档中自动提取出重要信息（实体、关系等）转化为结构化格式，方便计算机进一步处理与分析，不仅能够处理文本段落中的信息，还能有效应对表格、图表等复杂元素，实现信息全面抽取

大模型预训练语料与数据治理快速入库

在这里插入图片描述

大模型预训练语料与数据治理快速入库高效且精细的数据处理流程，迅速整合并优化海量训练语料，通过专业操作数据清洗、精确标注、高效入库等，保数据准确性和多样性，为人工智能大模型预训练提供坚实基础，运用场景广泛

金融报告（年报、研报、ESG报告、招股书等）
国家标准（涵盖国际、行业及专利标准等）
学术论文（涉及医疗、科研、题库、K12教育等多个领域）
文档公告（如招投标文件、合同、政策文档等）
使用手册（如产品手册、图纸手册等）

文档翻译（Document Translate）

在这里插入图片描述

文档翻译（DocumentTranslate）高效、准确且用户友好的多语言文档翻译工具，能够迅速还原并翻译各种格式文档，满足全球内容分发需求

还原度与准确性：翻译整篇文档，保留原有格式，理解并精确翻译复杂句子，减少错误并提高翻译质量
上下文意识：理解对话与叙述上下文，确保翻译保留原意与语气
速度与多语言支持：同时处理多种语言，几秒钟内处理并翻译大量文档

结语

合合信息智能文档处理"百宝箱"促进了工作效率与技术创新的飞跃，其精准高效的文档解析能力，解决了复杂版式文档难处理的问题，使得知识库开发流程更流畅、数据更准确；文档解析前端组件，让开发者在文档解析后能轻松进行审核校对与细致的二次优化；Acge文本向量化模型，进一步推动知识库信息构建、检索、查询智能化与高效化进程

无论是对于开发者还是最终用户，合合信息智能文档处理"百宝箱"简化了工作流程，缩短产品开发周期，使团队能够更专注于核心功能创新与优化；对于最终用户，提升了使用体验，无论是信息的快速检索还是准确获取，都变得更加便捷与高效