当前位置: 首页 > news >正文

数据研发基础| 什么是数据漂移

今天上午被一个昨天就出现的bug硬控一早上,同事a昨天找我说一条数据没同步过来,查出来是因为没审批记录,当脏数据处理掉了。然后他昨天提交了几条测试数据,今天早上来查还是没有。就在群里@我问原因了(还艾特了我的主管,ohno)我赶忙拉着开发同学一起查,发现业务库是今早晨七点更新的,数据是凌晨同步当然同步不过来。

但是这样数据就变成T+2更新了。作为一个小菜鸡,我马上去请教了师兄,他告诉我可以配置二次调度,早上把这个链路的表再run一遍。嗯,今天又从bug中学到了一些处理方案!

所以今天回顾一下数仓中的数据飘移。

什么是数据漂移

通常是指ods表的同一个业务日期数据中包含了前一天或后一天凌晨附近的数据或者丢失当天变更的数据,这种现象就叫做漂移

为什么产生

时间戳字段分为4类:

  1. 数据库表中用来标识数据记录更新时间的时间戳字段(假设这类字段叫modified time)。
  2. 数据库日志中用来标识数据记录更新时间的时间戳字段·(假设这类宇段叫log time)。
  3. 数据库表中用来记录具体业务过程发生时间的时间戳字段(假设这类字段叫proc time)。
  4. 标识数据记录被抽取到时间的时间戳字段(假设这类字段 extract time)。

理论上四个时间戳字段一致,但是实际生产中会有差异。比如业务手工改数据但是没更新modified time;数据抽取需要时间;网络延迟log time晚于业务发生时间。

而我们通常选取一个时间字段来切分ODS,这就导致了数据漂移。

选取四个字段分别产生的数据漂移场景:

  1. modified time :实际生产中最多,但是这个更新时间不更新就会导致数据遗漏,或者凌晨产出的漂移到后一天;
  2. log time: 一般由于系统或网络压力大,log time会晚于proc time,凌晨产出漂移到后一天。举个例子,双十一数据量巨巨大,应该会有支付时间小于记录更新时间的数据。
  3. proc time : 一般一个表不会只有一个业务过程,如果只用一个业务时间会遗漏其他过程的变化数据。
  4. extract time: 这个的偏移会最明显。

解决数据漂移思路

两种方法:
方法一: 多获取一点后一天的数据,保障数据只多不少(简单粗暴)
ODS每个时间分区向前向后都冗余一些数据,具体的切分再让下游根据业务时间proc time来限制。但是这样也会有误差的,比如当天请假了,第二天凌晨撤销了这个申请,这条记录的(审批)状态会更新,下游统计状态会错误统计。

方法二: 多个时间戳字段来保障一定的准确性。

  1. 先根据log time 冗余前一天最后15分钟和后一天凌晨15分钟,再根据多个业务过程的modified time限制在当天。
  2. 后一天15分钟的这些数据,按主键用log time升序去重,这样获取最接近当天的状态变化
  3. 最后将前两步的数据做全外连接,通过限制业务时间 proc_time 来获取想要的数据。
    看起来有点绕,简单理解就是做一些前后的冗余,再通过多个业务相关的发生时间限制在当天,再用时间字段排序取最接近当天状态的数据

http://www.mrgr.cn/news/76454.html

相关文章:

  • 计算机网络(第8版)第四章 网络层(4.10.1~4.10.3)
  • GelSight Mini视触觉传感器凝胶触头升级:增加40%耐用性,拓展机器人与触觉AI 应用边界
  • RuoYi Cloud项目解读【四、项目配置与启动】
  • 基于视觉惯性 SLAM(VSLAM)、相机和 IMU 数据的融合执行 6 自由度位姿跟踪
  • Ubuntu | 系统软件安装系列指导说明
  • pdf提取文本,表格以及转图片:spire.pdf
  • git本地分支推送到远程和远程pull到本地
  • 蓝桥杯备赛(持续更新)
  • python机器人Agent编程——多Agent框架的底层逻辑(上)
  • 《Python编程实训快速上手》第五天--模式匹配与正则表达式
  • Python学习26天
  • 【第三课】Rust变量与数据类型(二)
  • 面试经典 150 题:20、2、228、122
  • 【5.线性表-链式表示-王道课后算法题】
  • 前端实现图片伽玛值调整,并打印调整后的文件
  • 【提高篇】3.3 GPIO(三,工作模式详解 上)
  • cls(c基础)
  • Docker+Django项目部署-从Linux+Windows实战
  • RHCE的学习(18)
  • 传奇996_19——龙岭总结
  • RHCE的学习(17)
  • Linux设置静态IP
  • Emacs进阶之插入时间信息(一百六十三)
  • Android笔记(三十七):封装一个RecyclerView Item曝光工具——用于埋点上报
  • 微服务即时通讯系统的实现(客户端)----(1)
  • TCP连接秘籍:三次握手建立连接,四次挥手优雅告别