当前位置: 首页 > news >正文

DataFlow v202410 版本更新 一站式数据处理平台

DataFlow 是 OpenCSG 推出的一站式数据处理平台,与 CSGHub 无缝集成,形成数据到模型的全生命周期闭环,助力持续优化。平台兼容多种数据格式与来源,支持本地、云端和网络数据接入,并提供高效转换和读取工具,确保数据一致性。用户可通过定制化 Pipeline 实现复杂数据清洗和转换,并借助并行处理提升效率。新版 DataFlow 赋能数据科学家和工程师,高效应对复杂数据处理,开启数据集 Agentic 新范式。

01 算法模板

多种预定义算法模板:DataFlow 内置丰富的算法模板,包括数据处理、数据增强以及数据生成等,为用户提供便捷的即用型解决方案。

图片

灵活的自定义功能:支持用户自定义算法模板,通过增删查改等功能自由配置,从而更好地适配具体的业务需求。

图片

轻松部署数据处理任务:基于算法模板快速构建并运行数据处理作业,实现高效、自动化的数据处理流程。

02 作业管理

实时监控和精细化管理:全面管理作业运行状态,支持实时监控与操作(如删除),确保作业顺利执行。

图片

精细化的数据处理结果展示:作业内每个算子(Operator)的数据处理结果一目了然,包括处理的数据条数,帮助用户清晰了解每步数据的处理量。

图片

数据处理效果直观对比:可查看每个算子的处理前后数据样例,实现效果比对,确保数据处理质量。

图片

Pipeline 状态实时追踪:Pipeline 的运行状态、日志(Logs)等信息一键查看,让用户掌握流程的全貌,及时发现和解决问题。

图片

03 运行作业

丰富的数据处理操作:DataFlow 提供包括去除无效数据、格式转换、数据筛选等多种数据处理功能,满足从简单到复杂的各类需求。

强大的算子库:支持 50 多种文本数据处理算子,涵盖 Mapper、Filter、Deduplicator 等多种类型,确保数据处理的灵活性和广泛性。

可视化 UI 操作:支持在 UI 界面上展示算子和示例,用户可通过拖拽等方式轻松定义、编辑和运行数据工作流,进一步提升操作便捷性。

高效的并行处理:Pipeline 引擎支持多作业并行运行,为用户提供快速响应的大规模数据处理能力。

图片

04 产品集成

与 CSGHub 深度集成:DataFlow 与 CSGHub 完美结合,提供统一的用户登录体验,实现从数据集管理到数据处理的无缝衔接。

数据集版本管理:支持数据集的版本化管理,通过对指定版本的数据集进行集中式处理生成新版本,可用于大模型的微调、预训练及 RAG(Retrieval-Augmented Generation),满足更多业务场景的需要。

快来体验新版DataFlow吧!✨

点击阅读原文即可跳转~

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片


http://www.mrgr.cn/news/64220.html

相关文章:

  • 【优选算法】Prefix-Kage:前缀和的算法影(下)
  • PTA数据结构练习题6-6带头结点的链式表操作集
  • DevOps实战:用Kubernetes和Argo打造自动化CI/CD流程(2)
  • javaEE-线程的常用方法-4
  • 简单两步使用ssh配置内网穿透
  • 重温设计模式-外观模式和适配器模式的异同
  • WPF中的CommandParameter如何使用
  • 今日 AI 简报|零样本视频生成、移动端轻量语言模型、自动驾驶多模态模型等前沿 AI 技术集中亮相
  • JavaScript本地存储的方式有哪些
  • Linux安装部署MinIO
  • 常见 CSS 选择器用法
  • 七、Go语言快速入门之函数func
  • RHCE的练习(10)
  • 【论文阅读】Associative Alignment for Few-shot Image Classification
  • 告别传统办公软件,这款编辑器让你事半功倍!
  • GEE 训练教程——ee.Image()的使用
  • 分拣线番茄分级缺陷识别图像分割系统:创新探讨教学
  • RHCE【SELinux】
  • Fake Location解除屏蔽分析
  • 《高频电子线路》—— 振荡器稳定性问题
  • 【多模态读论文系列】LLaVA论文笔记
  • C++ ----------- 栈和队列
  • 软件设计师笔记-数据结构
  • 技术周总结10.28~11.03 周日
  • 动态规划-回文串系列——1312.让字符串变成回文串的最小插入次数
  • 祖鲁法则精要