当前位置：首页 > news >正文

Spark的yarn集群环境搭建

news 2025/4/26 17:46:07

一.为什么要搭建yarn集群

为什么要将Spark的程序运行在YARN上，不运行在自带的 Standalone集群上？

1、统一化资源管理

Standalone是Spark专用的资源管理集群，只能用于运行 Spark程序

YARN是功能的分布式资源管理平台，可以运行各种分布式程序：MR、Tez、Spark、Flink

工作中硬件集群只有一套，只能选择一个平台来管理，从整个技术架构来说选择YARN更合适

2、YARN调度机制更加完善和成熟

支持动态资源分配以及多种调度机制，比如容量调度、公平调度。

二.开始搭建

首先关闭以前的standalone集群：

cd /opt/installs/spark
sbin/stop-master.sh
sbin/stop-workers.sh
sbin/stop-history-server.sh

配置第一台服务器bigdata01：

cd /opt/modules/
tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs
cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-yarn
rm -rf /opt/installs/spark
ln -s /opt/installs/spark-yarn /opt/installs/spark

修改spark-env.sh配置文件：

cd /opt/installs/spark/conf
mv spark-env.sh.template spark-env.sh
vim /opt/installs/spark/conf/spark-env.sh
## 22行左右设置JAVA安装目录、HADOOP和YARN配置文件
目录
export JAVA_HOME=/opt/installs/jdk
export HADOOP_CONF_DIR=/opt/installs/hadoop/etc/hadoop
export YARN_CONF_DIR=/opt/installs/hadoop/etc/hadoop
## 历史日志服务器
export SPARK_DAEMON_MEMORY=1g
export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://bigdata01:9820/spark/eventLogs/ -Dspark.history.fs.cleaner.enabled=true"

修改spark-defaults.conf 文件：

cd /opt/installs/spark/conf
mv spark-defaults.conf.template spark-defaults.confvim spark-defaults.conf
## 添加内容：
spark.eventLog.enabled           true
spark.eventLog.dir           hdfs://bigdata01:9820/spark/eventLogs
spark.eventLog.compress           true
spark.yarn.historyServer.address bigdata01:18080
spark.yarn.jars           hdfs://bigdata01:9820/spark/jars/*

修改log4j.properties：

mv log4j.properties.template log4j.properties修改级别为WARN,打印日志少一点。

上传spark jar包到hdfs：

#因为YARN中运行Spark，需要用到Spark的一些类和方法
#如果不上传到HDFS，每次运行YARN都要上传一次，比较慢
#所以自己手动上传一次，以后每次YARN直接读取即可
hdfs dfs -mkdir -p /spark/jars/
hdfs dfs -put /opt/installs/spark/jars/* /spark/jars/

修改yarn-site.xml：

cd /opt/installs/hadoop/etc/hadoop检查以下内置少什么，就配什么。
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property><!-- 历史日志在HDFS保存的时间，单位是秒 -->
<!-- 默认的是-1，表示永久保存 -->
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property><property><name>yarn.log.server.url</name><value>http://bigdata01:19888/jobhistory/logs</value>
</property><!-- 关闭yarn内存检查 -->
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

将第一台机器的spark-yarn分发到第二台和第三台：
虚拟机中使用的分发文件，和分发命令脚本资源-CSDN文库

xsync.sh /opt/installs/spark-yarn超链接也分发一下：
xsync.sh /opt/installs/spark

启动：

# 启动yarn
start-yarn.sh
# 启动MR的JobHistoryServer：19888
mapred --daemon start historyserver
# 启动Spark的HistoryServer:18080
/opt/installs/spark/sbin/start-history-server.sh

到此搭建完成。

三.测试一下

再跑个π看看：

/opt/installs/spark/bin/spark-submit --master yarn /opt/installs/spark/examples/src/main/python/pi.py 10

可以看到：

查看全文

http://www.mrgr.cn/news/67882.html

用户信息管理系统烟草种植用户基于SpringBootSSM框架

【ShuQiHere】️ ️ LC-3 指令集架构 (ISA) 全面解析

Mysql、Dm8达梦数据库通过脚本导出指定库所有表的结构详情信息到

提交linux kernel patch流程

第08章排序ORDER BY

大模型微调技术 --＞ LoRA 系列之 AdaLoRA

ABAP开发-内存管理

Flutter环境配置

论文阅读《Structure-from-Motion Revisited》

Unet++改进3：添加NAMAttention注意力机制

故障排查之单点登录跳转失败(Ingress 相关)

Linux系列-进程的状态

【网易云插件】听首歌放松放松

在数据抓取的时候，短效IP比长效IP有哪些优势？

药品进销存表格制作佳易王药店药品入库出库台账库存管理系统操作教程

18-分页与遍历 - From, Size, Search_after Scroll API

（vue3）在Pinia Store中正确使用Vue I18n

记录mkdocs+yeti生成页面左侧导航（sidebar）添加滚动条(scroll bar)方法

LLM训练”中的“分布式训练并行技术；分布式训练并行技术

整合本地市场机会同城小程序打造社区商圈

一.为什么要搭建yarn集群

二.开始搭建

三.测试一下

相关文章：