当前位置: 首页 > news >正文

Debezium系列之:Incremental snapshotting设计原理

Debezium系列之:Incremental snapshotting设计原理

  • 动机
  • 目标
  • 非目标
  • 计划的改变
  • 测试

动机

  • Debezium是一个平台,通过处理数据库的事务日志来流式传输数据执行的更改。由于数据库中已经存在的数据通常在事务日志中不可用,因此Debezium在连接器启动时执行一致的快照。
  • 快照通过将所有捕获的表的内容读入Debezium并将其传递到Kafka来执行。快照处理表时是顺序执行的,只有在完成后才会开始流式传输。根据数据库的大小,这个过程可能需要几个小时甚至几天。这个过程本身可以中断,但必须从头开始执行。
  • 许多用例不需要将源数据库中已存在的数据全部一次性传递。相反,它们要求数据在未指定的时间点传递。这引出了增量快照的想法,其中快照与流式传输并行进行。结果将是流式传输从头开始执行,快照将被分批执行,这将允许在执行过程中恢复快照。
  • 快照的第二个问题是在需要更新捕获表的列表时可见的。由于通常需要流式传输新添加表的内容,因此通常需要暂时暂停流式传输,执行新表的快照,然后恢复流式传输(尚未在Debezium中实现)。增量快照也将解决这种情况。

目标

  • 提供可恢复快照支持
  • 提供快照与流式传输并行执行的支持
  • 提供过滤器配置的更新支持(包括/排除捕获表的列表)
  • 提供即席快照支持(在连接器运行时触发)


http://www.mrgr.cn/news/69787.html

相关文章:

  • 【软考】系统架构设计师-计算机系统基础(2):操作系统
  • ZooKeeper集群指南-新增节点配置
  • echarts-gl 3D柱状图配置
  • ubuntu主机搭建sysroot交叉编译环境
  • AR、VR、MR、XR - 20241110
  • CCF ChinaOSC |「开源科学计算与系统建模openSCS专题分论坛」11月9日与您相约深圳
  • 临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习
  • 动态规划-两个数组的dp问题——718.最长重复子数组
  • 【leetcode练习·二叉树】用「分解问题」思维解题 I
  • 《PyTorch深度学习快速入门教程》学习笔记(第20周)
  • 计算机网络基本概念总结
  • cherno引擎课 -
  • 计算机网络-1.2分层结构
  • PostgreSQL 开启密码验证插件
  • 医学图像算法之基于Unet的视网膜血管分割
  • 【Lucene】从文本到索引:Lucene如何构建索引
  • 伊洛瓦底江
  • 存贷款调整 20241110
  • Linux进程信号
  • “穿梭于容器之间:C++ STL迭代器的艺术之旅”
  • 【CLIP系列】开篇
  • GIN:逼近WL-test的GNN架构
  • 信息泄露漏洞一文速通
  • 【Hadoop实训】Hive 数据操作①
  • 全面解析 Python typing模块与静态类型注解:从基础到高级
  • 寻找伤感短视频素材 这些网站帮你轻松下载无水印资源