当前位置: 首页 > news >正文

如何在建设 DataOps 体系中选择合适的工具或平台?

纵观企业数据工程架构,在 2010 年前后有着明显变革。之前我们可称为“传统数据工程架构”,之后可称为“现代数据工程架构”,用海外的业内术语也可称为“传统数据堆栈”(Traditional Data Stack)和“现代数据堆栈”(Modern Data Stack)。

如今,随着“现代数据工程架构”的广泛应用,产生出越来越多的新问题,如:多系统分散组织,彼此间的割裂导致企业需要跨多系统工作,且每个系统只解决一部分问题,缺乏一个面向最终交付的平台,以及多系统间的运维操作风险难以把控等。同时,随着数据工程体系的复杂度进入亿级、十亿级、百亿级,“现代数据工程架构”面临着更大的挑战:

一、数据协同难:企业数据应用场景增加,参与数据管道构建团队增多,数据管道持续增长,下游团队持续增多,数据管道“烟囱化”越来越严重,形成日益复杂的工作流和数据流。

二、数据管理难:数据量成倍增加,ETL 任务成倍增长, ETL 工程师人均维护数据流中的表和数据管道的数量成倍增加,依靠 ETL 工程师很难在高度复杂数据流中找到优化方案。

三、数据交付难:越来越多的业务场景要求需求响应效率从月/周到天/时,数据分析更灵活性,支持多维度明细下探,强调数据分析一致性,以及技术上成本、风险的平衡。

在此背景下,DataOps 的出现,可以突破“现代数据工程架构”的困境,帮助企业实现“数据优先工程架构”,通过“端到端”打通数据流水线,打破“点对点”的低效数据协作流程,实现“手递手”的数据价值释放。一言以蔽之,按时按质高效交付高质量数据。

具体到建设 DataOps 体系,我们需要进行分层设计,分别负责“工作流”、“数据流”和“控制流”。“工作流”涵盖数据探查、开发、测试、部署、运维和监控等活动;“数据流”涵盖数据从入湖仓、湖仓内加工、湖仓内流转到数据出仓湖进入各个应用场景的完整链路;“控制流”是 DataOps 体系的感知决策中心,通过实时采集、解析和分析各项元数据信息,驱动工作流和数据流的敏捷流转和持续迭代。而要基于元数据构建控制流,需要从传统的被动模式改变为主动模式。

作为国内 Data Fabric 架构理念的实践者与引领者,Aloudata 大应科技首倡 NoETL 理念,通过自主研发的算子级血缘解析技术,打造了全球首个算子级血缘主动元数据平台——Aloudata BIG,自动构建精细、准确、全面、实时的数据血缘图谱,彻底改变过往元数据不准确、不连通、不精细、不保鲜的顽疾,“让元数据能用起来”。

在此基础上,Aloudata BIG 主动元数据平台,能够作为企业内统一的元数据中心和 DataOps 体系的控制中心,即控制流,驱动企业 DataOps 体系实现主动数据管理和敏捷数据协同

 

通过 Aloudata BIG 主动元数据平台,能够为企业 DataOps 体系建设提供四大能力支持:

一、算子级血缘解析:基于语义分析技术实现对 SQL 脚本的算子级自动解析和算子级血缘图谱构建,实现了对全域字段计算语义的精准刻画。

二、元数据语义挖掘:自动抽取字段算子级加工口径,结合上下游元数据信息挖掘业务语义,自动生成业务描述;对元数据进行分类、关联分析等,实现全域数据自动判重和编目。

三、主动元数据服务:基于对元数据的深入分析和挖掘,可提供高置信的建议或设计方案;通过挖掘行为元数据提供数据使用建议;通过分析链路冗余依赖提供时效优化建议。

四、反向元数据集成:可配置化提供各类服务 API,与客户的数据资产管理平台、数据集成开发平台或其他数据工具无缝集成,无需改变使用习惯,与 DataOps 工作流、数据流打通。

目前,Aloudata BIG 已帮助招商银行逐步推进 DataOps 体系建设,不仅将现有血缘图谱升级为算子级血缘图谱,实现 99% 的血缘解析准确率,更实现了元数据应用智能化、链路保障自动化和架构治理长效化,推动数仓快速实现资产数量下降 40%、平均链路缩短 50%。如您对 DataOps 体系建设和主动元数据感兴趣,欢迎访问 Aloudata 官网,了解更多。


http://www.mrgr.cn/news/47879.html

相关文章:

  • 使用 PyTorch 自定义数据集并划分训练、验证与测试集
  • Clisoft SOS设置Server和Project
  • TCP Analysis Flags 之 TCP Retransmission
  • 【Javascript Day2】
  • Element-plus表单总结
  • 知识产权要点
  • AI大模型源码解析|打造你的专属GitHub智能答疑助手!
  • GEE数据集:美国玉米、大豆和冬小麦 QDANN 30m 产量图/数据集
  • k8s 1.28.2 集群部署 MinIO 分布式集群
  • 从零开始:手把手教你构建Vue + TypeScript全栈项目
  • Pandas处理时间序列之光谱分析与聚类
  • 诺贝尔物理学奖首次颁给机器学习与神经网络:科技融合的新篇章
  • C++刷怪笼(7)string类
  • java中HashMap扩容机制详解(扩容的背景、触发条件、扩容的过程、扩容前后的对比、性能影响、数据重分配策略、优化建议)
  • MySQL存储JSON
  • 修改PostgreSQL表中的字段排列顺序
  • KVM虚拟化技术
  • C++基础面试题 | 什么是内存对齐?为什么需要内存对齐?
  • 头戴式耳机哪个品牌音质好?高品质百元头戴式耳机推荐榜单
  • 35.反转链表
  • 数理统计(第2章第2节:估计量的好坏标准)
  • 【MWORKS专业工具箱系列教程】控制系列工具箱第六期:根轨迹分析
  • 若依-二级页面的跳转设计
  • 发论文创新点来了!KAN+时间序列预测,更高性能表现、更低资源占用
  • 无刷直流电机工作原理:【图文讲解】
  • 现代 C++ 模板教程 学习笔记