阅文集团大数据面试题及参考答案
介绍下 Flink 的 watermark (水位线),watermark 需要实现哪个接口,在何处定义以及有什么作用?
在 Flink 中,watermark 是一种用于处理乱序事件时间的机制 。
实现接口:通常需要实现 AssignerWithPeriodicWatermarks 或 AssignerWithPunctuatedWatermarks 接口。前者会周期性地生成 watermark,后者则是基于某些特定事件来生成 watermark ,比如接收到某个特定值的消息时。
定义位置:可以在数据源处或者在流处理的中间操作中定义 watermark。在数据源定义时,能更精准地根据数据的产生特性设置 watermark;在中间操作定义则可以根据前面算子的处理情况灵活调整。
作用:一是处理乱序数据,在分布式流处理中,数据可能因网络延迟等原因导致乱序到达。Watermark 提供了一种衡量事件时间进展的方式,让 Flink 可以在一定程度上等待迟到的数据,以获取更完整的结果。例如,一个电商网站的订单数据,可能因为网络问题,下单时间靠后的订单数据先到达,watermark 可以帮助系统等待一定时间以获取更完整的订单数据序列。二是触发窗口计算,当 waterm