当前位置: 首页 > news >正文

云上大数据架构是什么?

本文转自 公众号 ByteByteGo,如有侵权,请联系,立即删除

云上大数据架构是什么?

构建大数据解决方案时应使用哪个云提供商?

下图展示了 AWS、Google Cloud 和 Microsoft Azure 的详细比较。

解决方案的共同部分:在这里插入图片描述

构建大数据解决方案时应使用哪个云提供商?

下图展示了 AWS、Google Cloud 和 Microsoft Azure 的详细比较。

在这里插入图片描述

01 结构化或非结构化数据的数据摄取

数据摄取是指从各种来源(结构化和非结构化数据)将数据导入系统的过程。数据可以来自数据库、日志文件、传感器数据、社交媒体等。

摄取方式有两种:

批量摄取 (Batch Ingestion):数据以固定时间间隔批量导入系统,适用于非实时性要求高的场景。
流式摄取 (Stream Ingestion):数据实时进入系统,适用于需要实时处理的场景,如物联网数据、用户行为分析等。

02 原始数据存储

原始数据存储是将摄取到的未经处理的数据存储到大容量的存储系统中,以便后续处理。存储可以是临时存储,也可以是长期归档存储。

结构化数据存储在传统数据库中,如关系型数据库。

非结构化数据存储在分布式文件系统中,如 HDFS(Hadoop Distributed File System)或云存储(如 AWS S3、Azure Blob Storage、Google Cloud Storage)。

03 数据处理,包括过滤、转换、规范化等

数据处理是对原始数据进行清洗、过滤、转换、规范化等操作的过程,以便为后续的分析和存储做准备。

04 数据仓库,包括键值存储、关系数据库、OLAP 数据库等

数据仓库是为分析目的准备的存储系统,能够存储处理后的数据,支持复杂的查询和数据分析。数据仓库可以是关系型、键值存储或 OLAP 数据库。

键值存储适合高性能的键值查询,如 AWS DynamoDB、Azure Cosmos DB。

关系数据库用于存储结构化数据,支持 SQL 查询,如 Amazon RDS、Google Cloud SQL。

OLAP(在线分析处理)数据库适用于快速的多维数据分析和报表生成,如 Google BigQuery、Amazon Redshift、Azure Synapse Analytics。

05 演示层,包括仪表板和实时通知

演示层是最终用户与数据交互的界面,通常以图形化方式呈现数据分析结果。它包括仪表板、报表、实时通知等。

有趣的是,不同的云供应商对同一类产品有不同的名称。

例如,第一步和最后一步都使用了无服务器产品。该产品在 AWS 中称为 “lambda”,在 Azure 和 Google Cloud 中称为 “function”。


http://www.mrgr.cn/news/56702.html

相关文章:

  • Docker基础部署
  • C++ —— 实现一个日期类
  • Preview Sections 预览部分
  • Linux虚拟化软件与操作系统与SSH客户端
  • 计算机网络—静态路由
  • 程序描述语言
  • 已集成工作流引擎的低代码平台(源码获取,JAVA,Vue)
  • WPF LiveChart控件基础属性介绍
  • 代码随想录算法训练营第五天| 哈希表理论基础 454.四数相加II 383.赎金信 15.三数之和 18.四数之和
  • 【C++】STL----map和set
  • RAD Studio 12.2 Athens Inline Patch 1 已可下载更新
  • 在嵌入式开发领域,有哪些好用的国产工具?
  • vllm源码解析(六):采样策略分析
  • Kafka-Windows搭建全流程(环境,安装包,编译,消费案例,远程连接,服务自启,可视化工具)
  • 【运维自动化-作业平台】如何使用全局变量之主机列表类型?
  • C++模板编程:使用模板实现高效泛型算法
  • 情怀程序员,没有套路的坐下和大家掏心窝聊聊今年的1024 | 程序员节
  • 软考系统分析师知识点二十:系统安全性分析与设计
  • pycharm配置git版本控制
  • java-如何对vo里面的字段或者Map里面数据进行排序
  • Redis-05 Redis哨兵高可用架构原理与搭建
  • C语言-文件读写代码详解
  • 【汇编语言】第一个程序(一)—— 一个源程序从写出到执行的过程
  • WPF修改应用程序桌面图标
  • 【Git原理与使用】多人协作
  • 【Vue3】第一篇