【Apache Paimon】-- 2 -- 核心特性 (0.9.0)
目录
1、实时更新
1.1、实时大批量更新
1.2、支持定义合并引擎
1.3、支持定义更新日志生成器
2、海量数据追加处理
2.1、append table
2.2、快速查询
3、数据湖功能(类比:hudi、iceberg、delta)
3.1、支持 ACID 事务
3.2、支持 Time travel(时间旅行)
3.3、支持 Schema Evolution(元数据变更)
3.4、可扩展元数据:存储 PB 级大规模数据集和存储大量分区
3.4.1、表级别的元数据管理
3.4.2、架构可扩展性
3.4.3、自定义扩展
3.4.4、版本管理和一致性
3.4.5、与其他系统的兼容性
3.5、分区过期设置
4、参考
1、实时更新
1.1、实时大批量更新
通过 Flink streaming 可以实现 primary key 表的实时大批量更新。
1.2、支持定义合并引擎
用户可以随心所欲地更新记录。复制以保留最后一行,或部分更新,或汇总记录,或第一行,提供了很灵活的处理方式,总之可以用户自己决定。
主键表的数据更新提供了以下合并机制: