爱奇艺大数据多AZ统一调度架构:打破数据孤岛,提升效率
引言
在当今的数字化时代,数据已成为企业最宝贵的资产之一。爱奇艺技术产品团队通过构建多AZ统一调度架构,成功解决了数据孤岛问题,实现了数据的高效管理和使用。本文将详细介绍这一架构的设计思路、核心组件以及它如何帮助爱奇艺提升数据开发与分析效率。
爱奇艺大数据简介
2.1 爱奇艺大数据体系
爱奇艺大数据体系建立在Hadoop、Spark、Flink等开源大数据技术之上,提供从数据采集到分析应用的全流程服务。通过自研的平台和工具,爱奇艺实现了数据流程的高效管理,提升了数据流通效率。
2.2 需求与挑战
在多AZ统一调度架构实施前,爱奇艺大数据分布在多个AZ的7个Hadoop集群上,存在数据孤岛问题,导致数据使用不便和存储成本增加。为了解决这些问题,爱奇艺大数据团队提出了多AZ统一调度架构的解决方案。
爱奇艺大数据多AZ统一调度架构
3.1 核心设计思路
多AZ统一调度架构的核心是“底层分而治之,上层统一入口”。通过这一架构,爱奇艺实现了不同AZ、不同集群间的数据读写路由和计算调度路由,使得业务可以无感访问不同集群上的数据。
3.2 统一存储
爱奇艺自研的QBFS(iQIYI Bigdata File System)大数据文件系统,提供了统一的访问入口,实现了存储与计算的分离和跨集群的统一存储路由。QBFS支持多种存储类型,并提供了跨集群/跨文件系统的统一命名空间、缓存加速、分层存储等功能。
统一命名空间
QBFS实现了存储路径的统一命名空间,使得上层计算引擎无需关心底层存储细节,由QBFS进行路由。
缓存加速
通过引入Alluxio缓存,QBFS构建了跨AZ的缓存系统,支持预加载或根据数据热度自动加载热数据,减少了跨AZ数据传输,节省了带宽成本。
分层存储
爱奇艺设计了基于数据热度的分层存储系统,通过QBFS存储到不同的介质中,大幅降低数据存储成本。
3.3 统一计算调度
QBCS(iQIYI Bigdata Computing Scheduler)是爱奇艺自研的大数据统一计算调度服务,它简化了用户对计算任务的管理,根据任务属性、集群情况、AZ间网络情况等因素,将任务调度到合适的集群。
3.4 统一元数据服务
爱奇艺基于Waggle Dance构建了统一元数据服务,实现了跨多个Hive Metastore的访问,解决了元数据割裂问题,提高了业务开发效率。
总结及规划
爱奇艺的多AZ统一调度架构已经在私有云落地,帮助大数据降本35%以上。未来,爱奇艺将进一步推出大数据混合云建设规划,支持云上云下、多家公有云间数据和计算的无感路由、自由流转。
爱奇艺的多AZ统一调度架构是一个创新的解决方案,它不仅提高了数据的管理和使用效率,还为大数据的云原生化演进提供了新的方向。随着技术的不断进步,我们期待爱奇艺在大数据领域带来更多的创新和突破。