当前位置: 首页 > news >正文

开箱即用!智能文档处理“百宝箱”

  10月24日至26日,CSDN第五届“1024程序员节”在长沙召开,来自合合信息的常扬老师在“模型与工具”论坛上分享了合合信息的智能文档处理“百宝箱”,系统介绍了TextIn ParseX、acge-embedding、markdown_tester三种工具。正好我最近也在做一些扫描件的文档整理,就让我们一起来了解一下这几样工具到底有多神。

文档解析的过程中最容易出现的问题就是版式复杂,抓取不到正确的位置从而解析错误。除此之外,还存在解析速度太慢、语义信息丢失等问题。如果是模型训练,则还会遇到CornerCase过多、召回结果排序困难、答案生成有幻觉等问题。合合信息本次推出智能文档处理“百宝箱”,解决这些问题都不在话下。

这次全新推出的TextIn ParseX做成了一个可视化工具,对于纯文字工作者来说实在是太方便了。我们可以从它的GitHub页面或官网页面直接体验。下面是我自己的一个小实验。

双栏排版中这种跨栏的元素是最难定位的,我们看右侧确实很准确地识别到了。点击左侧文档右侧也会自动滚动到对应的位置,点击右边也是同样的效果。同时左侧会自动解析出文档目录结构,方便快速跳转。

不仅如此,下方还有难度更高的跨栏表格,可以看到也是很准确地识别到了,同时还还原成了表格的形制,我们可以直接复制到word等文本编辑器里,替换一下表格样式就可以直接用了,非常方便。

还有一个非常贴心的新设计,右上侧可以切换结果的格式,适应不同的应用场景。可以选择markdown用于博客、笔记等,也可以选择为JSON格式用于自动化脚本、机器学习等。如果只需要表格、公式或图片也有专门的标签页可以选择。

如果有进阶需求,可以在高级模式中进行个性化设置,调整参数来适应自己的需求。比如说我们要在解析文档进行结果审核校对、效果测评等场景,需要可视化展示文档解析后的结果的时候就可以进行结果的定制。

事实上,使用文档处理工具的并不只有文字工作者,还有机器学习模型研究人员。对于他们则有另外的利器可以使用,这就是向量化acge-embedding模型。它可以将海量的文本数据转化为一个有方向有数值的列表,进而计算文本相似性。这一特性使得它在内容审核、意图分析、情感分析、推荐系统、信息检索都有广泛的应用。

这一技术早已是研究NLP小伙伴门的必备技能,不过acge-embedding有绝招。相比其他模型,它的模型较小,占用资源少;同时模型输入文本长度为1024,满足绝大部分场景的需求;最厉害的是,acge模型支持可变嵌入维度,让文本嵌入模型在推理时具备可变Embedding大小的能力,可以根据企业场景采用不同的计算和存储消耗,这是大部分模型不具备的能力。acge-embedding模型曾在Massive Text Embedding Benchmark中文榜单C-MTEB获得了第一名的好成绩,受到业界的广泛认可。

研究人员可以很轻易的使用acge-embedding模型开展对比学习技术、数据挖掘、多任务混合训练、MRL训练和持续学习。比如说在应用在检索增强生成中,可以对文档块进行向量化表示;也可以对问题(query)进行向量化表示,查询高文本相似度的文档块召回;也可以文档块向量库实时动态更新,低成本高扩展;或者通过数据向量化处理保证数据安全。

程序员朋友们可能还有技术选型的需求,针对这一点合合信息还提供了markdown_tester文档解析测评工具,用以评价转换结果和原始文档内容相似度。文档解析结果可以从结果稳定、识别准确、性能更快三个方面评价,主要体现在电子档和扫描件的处理、文档图像预处理、物理版面分析、逻辑版面分析和文字识别几个角度。markdown_tester通过对表格、段落、标题、阅读顺序、公式几个板块共14项指标进行定量测评,使开发者可直观地看到文本识别、解析和翻译的结果评估产品效果。最方便的是,在评测完毕后可以直接导出评分表格和更为直观的雷达图便于取用。

 企业在数字化转型中,通过将数据转化为资产,建设知识库来提升竞争力。然而,不同类型的文档内容复杂,解析难度较大,影响数据准确性及知识库建设。合合信息的“百宝箱”可应对多场景数据处理需求。使用markdown_tester评估工具可全面测试文档解析效果,而TextIn ParseX可帮助审核、修正解析结果,确保重要数据的准确性。

如果能够独立训练人工智能模型,企业可以通过acge文本向量化模型,开展大模型预训练语料与数据治理快速入库,对大量数据源进行统一管理,增强知识库的全面性和准确性。

除此以外,企业还可以开展文档翻译等直接应用。由于“百宝箱”能够获取文档页面结构,翻译的结果可以直接替换页面中的元素,保持原有格式的情况下输出结果,节约人力并提高工作效率。


 

        合合信息“百宝箱”在电子档解析、扫描档识别上一直处于业界领先地位,能够做到不漏检、不错检、识别准确。同时对于特殊文档元素如无线表、跨页表格、各、页眉、页脚、公式、图像、印章、流程图、目录树等也有非常好的适配。

 如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利。
https://www.textin.com/activity?tag=znwd-bbx&btn=tj&code=mkt-csdn241024&from=csdn-prtg


http://www.mrgr.cn/news/61748.html

相关文章:

  • HTB:Paper[WriteUP]
  • KG-CoT:基于知识图谱的大语言模型问答的思维链提示
  • hutool糊涂工具通过注解设置excel宽度
  • 建立时间和保持时间
  • 大语言模型兵马未动,数据准备粮草先行
  • 【存储过程】Mysql的存储过程,语法及案例(详解)
  • Faces in Things数据集: 由麻省理工学院、微软等联合发布,探索人类视觉错觉的新里程碑
  • Ollama运行本地LLM大模型简单教程:大显存很重要
  • 【Golang】Golang的数组和slice切片的区别
  • 数据集(Dataset)是指为特定目的而收集、整理、存储的数据集合
  • 雷池社区版配置同步试用
  • 最长公共子串问题
  • 【Linux系统编程】第三十九弹---探索信号处理的奥秘:阻塞信号与sigset_t的深入剖析及实战
  • BUUCTF靶场Misc练习
  • yarn 下载安装、下载依赖、通过 vscode 运行服务(Windows11)
  • 企业如何提高外呼电话接通率?申请来电名片需要什么材料?
  • 数据驱动的智能化投资:民锋金融科技创新的策略分析
  • Linux权限管理中的文件权限与目录权限
  • 引领数字未来:通过企业架构推动数字化转型的策略与实践
  • [原创](Modern C++)现代C++的数据拷贝实用技术std::copy()与std::copy_if()
  • Photoshop图像算法(十)(代码在每个原理后面)
  • linux重定向函数dup、dup2函数
  • 智慧水坝和智慧水闸是水务管理的标配,看看别人家咋做的。
  • 锐捷配置sshhe telnet登录。
  • 普通人适合做大模型吗?过程中会发生什么潜在的挑战?
  • FragmentActivity理解