当前位置：首页 > news >正文

读数据工程之道：设计和构建健壮的数据系统32序列化和云网络

news 2025/12/19 8:52:58

1. 序列化

1.1. 仅仅通过从CSV转换到Parquet序列化，任务性能就提高了上百倍

1.2. 基于行的序列化

1.2.1. 基于行的序列化是按行来组织数据
1.2.2. 对于那些半结构化的数据（支持嵌套和模式变化的数据对象），基于行的序列化需要将每个对象作为一个单元来存储
1.2.3. CSV格式是一种典型的基于行的格式
- 1.2.3.1. CSV：不是标准的标准
- 1.2.3.2. CSV本质上是分隔符文本的总称，但不同的CSV文件在转义、引号字符、分隔符等的使用上会有所变化
- 1.2.3.3. 应该避免在管道中使用CSV文件，因为它们非常容易出错，而且性能很差
- 1.2.3.4. 使用CSV进行归档，要附带上文件的序列化配置的完整技术描述，以便未来的数据消费者获取数据
1.2.4. XML
- 1.2.4.1. XML是数据工程师在与传统系统和软件交换数据时经常必须处理的另一种标准
1.2.5. JSON和JSONL
- 1.2.5.1. JSON已经在纯文本对象序列化上很大程度地取代了XML
- 1.2.5.2. JavaScript对象表示法(JSON)已经成为通过API数据交换的新标准，以及一种非常流行的数据存储格式
- 1.2.5.3. JSON Lines(JSONL)是JSON的一个专门版本，用于将批量半结构化数据存储在文件中
- 1.2.5.4. JSONL是一种非常有用的格式，可以在从API或应用程序获取数据后立即存储数据
1.2.6. Avro
- 1.2.6.1. Avro是一种面向行的数据格式，用于远程过程调用和数据序列化
- 1.2.6.2. Avro将数据编码为二进制格式，其模式的元数据为JSON形式

1.3. 列序列化

1.3.1. 通过列序列化，每列数据都会分为多个文件
1.3.2. 列存储的一个明显优势是，它从字段的子集中读取数据，而不是一次性读取整行数据
- 1.3.2.1. 分析应用程序常用列序列化，它可以大大减少执行查询时必须扫描的数据量
1.3.3. 将数据存储为列还可以将相似的值聚集，让每列数据的排列更有效率
1.3.4. 一种常见的压缩技术是寻找重复的值并对其进行标记，对于有大量重复数据的列来说简单又高效
1.3.5. 列式数据库对于事务性工作负载来说是非常不合适的，所以事务数据库通常会利用一些面向行或记录的存储方式
1.3.6. Parquet
- 1.3.6.1. Parquet以列格式存储数据，旨在实现数据湖环境中的出色读写性能
- 1.3.6.2. 与CSV不同，Parquet方式储存的数据建立在模式信息中，并原生支持嵌套数据
- 1.3.6.3. 与Parquet相比，虽然BigQuery和Snowflake等数据库以专有的列格式序列化数据，并为其内部存储的数据提供很好的查询性能，但在与外部工具互操作时会产生巨大的性能下降
- 1.3.6.4. 存储的数据需要被反序列化，并重新序列化为可交换的格式，才能使用如Spark和Presto等数据湖工具操作
1.3.7. ORC
- 1.3.7.1. 行优化列存储(Optimized Row Columnar，ORC)是一种类似于Parquet的列存储格式
1.3.8. Apache Arrow
- 1.3.8.1. 利用二进制数据格式来重新设计序列化，这种格式既适合在内存中处理，也适合在系统间传输
- 1.3.8.2. Arrow使用列存储，其中每一列基本上都有自己的内存块
- 1.3.8.3. 对于嵌套的数据，我们会使用一种叫作粉碎的技术，将JSON文档模式中的每个位置都映射成单独的列
- 1.3.8.4. 意味着数据文件可以存储在磁盘上，通过使用虚拟内存将其直接交换到程序地址空间并运行数据查询，没有反序列化的开销
- 1.3.8.5. 为各种编程语言（包括C、Go、Java、JavaScript、MATLAB、Python、R和Rust）创建了库，允许这些语言与在内存中的Arrow数据互通
- 1.3.8.6. Dremio，它是一个基于Arrow序列化，支持高速查询的查询引擎和数据仓库

1.4. 混合序列化

1.4.1. Hudi
- 1.4.1.1. Hadoop Update Delete Incremental的缩写
- 1.4.1.2. 一种表管理技术结合了多种序列化技术，让分析查询拥有列式数据库的性能，同时能进行原子式的、事务性的记录更新
1.4.2. Iceberg
- 1.4.2.1. 一种表管理技术