当前位置: 首页 > news >正文

合合信息智能文档处理百宝箱:强力驱动,加速文档类应用研发进程

合合信息智能文档处理百宝箱:强力驱动,加速文档类应用研发进程

文章目录

    • 合合信息智能文档处理百宝箱:强力驱动,加速文档类应用研发进程
      • 可视化文档解析前端TextInParseX
        • 使用体验
      • 向量化Acge-embedding模型
        • 使用体验
      • 文档解析测评工具Markdown_tester
        • 使用体验
      • 百宝箱场景应用
        • 知识库(RAG)
        • 智能文档抽取(OpenKIE)
        • 大模型预训练语料与数据治理快速入库
        • 文档翻译(Document Translate)
      • 结语

在这里插入图片描述

目前,市面上文档解析工具繁杂无序,缺乏统一评估标准,集成难度大、调试周期长,给个人开发者及中小企业带来沉重负担。为此,合合信息推出智能文档处理"百宝箱",通过可视化文档解析前端、向量化Acge-embedding模型、定量测评工具,为开发者提供便捷产品效果评估手段,助力项目快速落地

可视化文档解析前端TextInParseX

在这里插入图片描述

TextInParseX 通用文档解析是一款大模型解析工具,支持将PDF文档、JPG、IMG图像等文件快速转换为 Markdown格式,并具备各类表格、公式的解析能力,帮助大语言模型完成数据清洗、文档问答任务,提高文档处理效率和准确性

1、丰富可视化与交互功能:TextInParseX 前端组件提供全面文档可视化功能,能够预览并渲染主流图片格式(JPG、PNG等)和PDF文件,用户可以通过缩放和旋转功能轻松调整文档视图,更细致地查看文档内容,支持Markdown 结果渲染,准确展示各级标题、文本和表格,为用户提供直观阅读体验

2、深度解析与元素溯源:TextInParseX 具备强大文档解析能力,能够提取并展示文档中各类元素,包括表格、公式、图片等,支持解析元素文档位置溯源,即在原文中画框标注各元素位置,用户可以通过点击画框直接跳转到相应解析结果,双向跳转功能大大提高用户审核校对文档效率

3、灵活接口调用与配置:TextInParseX 基于ES6和React框架开发,提供灵活接口调用选项和参数配置功能,用户可以根据自己需求配置不同参数组合,获取更精确解析结果,支持在GitHub上检索 TextInParseX 获取更多相关信息和社区支持,方便用户进行二次开发和功能扩展

在这里插入图片描述

  • 表格识别效果好

能准确识别各种格式表格,包括有线表、无线表、密集表,并支持各种类型合并单元格识别与还原

  • 支持多种扫描内容

基于合合多年文档识别积累,能良好处理图片、扫描内容、手机照片、截屏等内容

  • 阅读顺序还原准

理解和还原文档结构和元素排列,确保阅读顺序准确性,支持多栏布局的论文、年报、业务报告等内容

使用体验

Textin控制台将需要导出为Markdown格式的文件传入

在这里插入图片描述

导出结果展示,文档解析精准度极高,对于文档中的各一级标题、二级标题(乃至更细致的层级标题)均能准确识别并清晰呈现

在这里插入图片描述

向量化Acge-embedding模型

在这里插入图片描述

合合信息推出的一款先进的文本向量化模型:ACGE_Text_Embedding模型,采用俄罗斯套娃表征学习框架,能够生成一个嵌套且多粒度的表示向量,可以独立用于不同任务,同时保持高度的准确性与信息丰富性,灵活适应不同计算资源需求,无缝地融入多种表示学习框架

训练阶段MRL框架会根据预设的向量维度(例如64、128直至2048、3072等)分别计算多个损失值,以此在单次训练周期内即可获取多种维度文本表征,由粗至细层次化表示策略,显著增强了模型灵活性,极大缩减推理与部署阶段额外开销

在这里插入图片描述

高精度与高效率:ACGE-Embedding模型在MTEB中文榜单上取得第一名成绩,展现了其高精度与高效率特点,和其它开源模型相比,ACGE模型较小,占用资源少,同时支持可变嵌入维度,能够根据具体场景合理分配资源,实现高效处理

灵活性与可扩展性:ACGE-Embedding模型采用了俄罗斯套娃表征学习(MRL)技术,使得文本嵌入模型在推理时具备可变 Embedding 大小的能力,提高模型灵活性,使得文档块向量库能够实时动态更新,实现低成本高扩展

强大泛化能力与适应性:ACGE-Embedding 模型通过对比学习技术、数据挖掘、多任务混合训练、持续学习等方法,提升模型泛化能力与适应性,使模型能够处理各种复杂下游任务,如文本分类、聚类、成对分类、重排序、检索、语义文本相似性等,避免引入新数据后模型灾难性遗忘问题

使用体验

1、安装依赖:使用acge_text_embedding模型之前,需要安装sentence_transformers库,使用pip进行安装

pip install --upgrade sentence_transformers

2、加载模型:安装完成后,使用以下代码加载acge_text_embedding模型

from sentence_transformers import SentenceTransformer,model = SentenceTransformer('acge_text_embedding')

3、模型使用

  • 文本向量化:使用model.encode()方法对文本进行向量化

文本列表:

sentences = ["我喜欢这本书", "我很爱读这本书"]

向量化:

embeddings = model.encode(sentences, normalize_embeddings=True)
  • 计算相似度:文本向量后,可以使用余弦相似度等方法计算文本之间相似度

计算两个文本之间相似度:

similarity = embeddings[0] @ embeddings[1].T

文档解析测评工具Markdown_tester

在这里插入图片描述

文档解析测评工具Markdown_Tester,通过定量测评展示各解析产品具体表现,帮助用户聚焦于业务场景,快速、高效评估各款解析产品在业务场景下的能力,用于对 Markdown 文档进行相似性评价(段落、标题、表格、公式维度)

全面性:涵盖表格、段落、标题、阅读顺序、公式等多维度,能够全面评估解析产品性能

准确性:通过定量测评与具体指标计算,准确反映各解析产品表现

便捷性:支持上传任意样本进行测评,操作简单便捷

可视化:输出结果包括直观雷达图,直观比较与分析各解析产品性能

使用体验

1、安装软件包

./install.sh

2、待测评样本按照下述方式放置

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

3、使用命令如下

  • path_to_pred_md:预测值文件所在文件夹
  • path_to_gt_md:真值文件所在文件夹
python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

4、运行结果

在这里插入图片描述

百宝箱场景应用

知识库(RAG)

在这里插入图片描述

RAG(知识库)是先进文档处理技术,超越传统方法仅基于字符长度进行索引、检索和生成内容的局限,通过深入理解文档内容逻辑,将文本智能地分块,并生成分块摘要,精准识别并提取文档中的关键元素(文本、图像、表格等)显著提高处理效率,优化输出效果

智能文档抽取(OpenKIE)

在这里插入图片描述

智能文档抽取(OpenKIE)从各类非结构化或半结构化的文档中自动提取出重要信息(实体、关系等)转化为结构化格式,方便计算机进一步处理与分析,不仅能够处理文本段落中的信息,还能有效应对表格、图表等复杂元素,实现信息全面抽取

大模型预训练语料与数据治理快速入库

在这里插入图片描述

大模型预训练语料与数据治理快速入库高效且精细的数据处理流程,迅速整合并优化海量训练语料,通过专业操作数据清洗、精确标注、高效入库等,保数据准确性和多样性,为人工智能大模型预训练提供坚实基础,运用场景广泛

  • 金融报告(年报、研报、ESG报告、招股书等)
  • 国家标准(涵盖国际、行业及专利标准等)
  • 学术论文(涉及医疗、科研、题库、K12教育等多个领域)
  • 文档公告(如招投标文件、合同、政策文档等)
  • 使用手册(如产品手册、图纸手册等)
文档翻译(Document Translate)

在这里插入图片描述

文档翻译(DocumentTranslate)高效、准确且用户友好的多语言文档翻译工具,能够迅速还原并翻译各种格式文档,满足全球内容分发需求

  • 还原度与准确性:翻译整篇文档,保留原有格式,理解并精确翻译复杂句子,减少错误并提高翻译质量
  • 上下文意识:理解对话与叙述上下文,确保翻译保留原意与语气
  • 速度与多语言支持:同时处理多种语言,几秒钟内处理并翻译大量文档

结语

合合信息智能文档处理"百宝箱"促进了工作效率与技术创新的飞跃,其精准高效的文档解析能力,解决了复杂版式文档难处理的问题,使得知识库开发流程更流畅、数据更准确;文档解析前端组件,让开发者在文档解析后能轻松进行审核校对与细致的二次优化;Acge文本向量化模型,进一步推动知识库信息构建、检索、查询智能化与高效化进程

无论是对于开发者还是最终用户,合合信息智能文档处理"百宝箱"简化了工作流程,缩短产品开发周期,使团队能够更专注于核心功能创新与优化;对于最终用户,提升了使用体验,无论是信息的快速检索还是准确获取,都变得更加便捷与高效

如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利

体验地址


http://www.mrgr.cn/news/60127.html

相关文章:

  • flutter vscode app 的输出在哪里
  • 前端构建工具vite的优势
  • 华为OD机试 - 信息搜索(Python/JS/C/C++ 2024 D卷 100分)
  • 高级SQL技巧掌握
  • MATLAB实现遗传算法优化零件拆卸装配问题
  • Solidity智能合约中的异常处理error、require、assert
  • 开源自动化测试工具Playwright
  • C#与C++交互开发系列(十四):C++中STL容器与C#集合传递的形式
  • python函数-18
  • 在linux系统中使用zlib库 压缩解压 文件(C++)
  • redis缓存击穿如何解决和预防?
  • H3C Hybrid 实验
  • 深入浅出 C++ STL:解锁高效编程的秘密武器
  • C/C++小宇宙代码
  • 道路车辆功能安全 ISO 26262标准(9-4)—面向汽车安全完整性等级 (ASIL) 和安全的分析
  • 清华面试文稿
  • 平衡控制——直立环——速度环
  • 基于Datawhale开源量化投资学习指南(11):LightGBM在量化选股中的优化与实战
  • android studio编译错误提示无法下载仓库
  • stm32单片机基于rt-thread 的 littlefs 文件系统 的使用
  • 梦笔记20241028
  • AngularJS 指令
  • python处理文件和图片
  • Golang | Leetcode Golang题解之第516题最长回文子序列
  • Flux 开源替代,他来了——Liberflux
  • spring-第十二章 GoF代理模式