当前位置：首页 > news >正文

【大数据学习 | Spark-Core】Spark提交及运行流程

news 2025/4/26 23:18:56

spark的集群运行结构

我们要选择第一种使用方式

命令组成结构 spark-submit [选项] jar包参数

standalone集群能够使用的选项。

--master MASTER_URL #集群地址
--class class_name #jar包中的类
--executor-memory MEM #executor的内存
--executor-cores NUM # executor的核数
--total-executor-cores NUM # 总核数

用spark-submit提交spark应用程序。

spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://nn1.hadoop:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/usr/local/spark/examples/jars/spark-examples_2.12-3.1.2.jar \
100

参考：

集群参数配置

--master MASTER_URL #集群地址
--class class_name #jar包中的类
--executor-memory MEM #executor的内存
--executor-cores NUM # executor的核数
--total-executor-cores NUM # 总核数

spark webUI

Driver： 运行 Application 的 main() 函数的节点，提交任务，并下发计算任务；

Cluster Manager：在standalone模式中即为Master主节点，负责整个集群节点管理以及资源调度；在YARN模式中为资源管理器；

Worker节点：上报自己节点的资源情况，启动和管理 Executor；

Executor：执行器，是为某个Application运行在worker节点上的一个进程；负责执行task任务（线程）；

Task：被送到某个Executor上的工作单元，跟MR中的MapTask和ReduceTask概念一样，是运行Application的基本单位。

运行大概流程：

1）driver 端提交应用，并向master申请资源；

2）Master节点通过RPC和Worker节点通信，根据资源情况在相应的worker节点启动Executor 进程；并将资源参数和Driver端的位置传递过来；

3）启动的Executor 进程会主动与 Driver端通信，Driver 端根据代码的执行情况，产生多个task，发送给Executor；

4）Executor 启动 task 做真正的计算，每个Task 得到资源参数后，对相应的输入分片数据执行计算逻辑；

http://www.mrgr.cn/news/77809.html

相关文章：

【蓝桥杯C/C++】翻转游戏：多种实现与解法解析

14.C++STL1(STL简介)

【蓝桥杯C/C++】深入解析I/O高效性能优化：std::ios::sync_with_stdio(false)

minikube单机k8s出现Listen: listen tcp :53: bind: permission denied

【题解】—— LeetCode一周小结46

CSRF保护--laravel进阶篇

【大数据学习 | Spark-Core】spark-shell开发

《线性代数的本质》

【计算机网络】网段划分

《Shader 入门精要》学习笔记茵蒂克丝

用python将一个扫描pdf文件改成二值图片组成的pdf文件

[模版总结] - 树的基本算法4 -最近公共祖先 LCA

【大数据学习 | Spark-Core】yarn-client与yarn-cluster的区别

浦语提示词工程实践(LangGPT版，服务器上部署internlm2-chat-1_8b，踩坑很多才完成的详细教程，)

复习！！！

Spring |（二）IoC相关内容 | bean

Long noncoding RNAs and humandisease

微服务即时通讯系统的实现（服务端）----（1）

计算机视觉 1-8章 (硕士)