当前位置: 首页 > news >正文

spark-本地模式的配置和简单使用

python环境的安装

        在虚拟机中,只能安装一个python的版本,若想要安装别的版本,则需要卸载之前的版本——解决方式,安装Anaconda 

通过百度网盘分享的文件:Anaconda3-2021.05-Linux-x86_64.sh
链接:https://pan.baidu.com/s/1e3rvqD0G7eSEP_7di8uzxQ?pwd=do8s 
提取码:do8s

1、上传Anaconda3-2021.05-Linux-x86_64.sh 到/opt/installs下
2、执行文件:sh Anaconda3-2021.05-Linux-x86_64.sh
3、开始安装
# 过程#第一次:【直接回车,然后按q】Please, press ENTER to continue>>>#第二次:【输入yes】Do you accept the license terms? [yes|no][no] >>> yes#第三次:【输入解压路径:/opt/installs/anaconda3】[/root/anaconda3] >>> /opt/installs/anaconda3#第四次:【输入yes,是否在用户的.bashrc文件中初始化Anaconda3的相关内容】Do you wish the installer to initialize  Anaconda3by running conda init? [yes|no][no] >>> yes
4、刷新环境变量source /root/.bashrc
5、激活虚拟环境,如果需要关闭就使用:conda deactivate# 默认会进入 base中 或者在后面加参数
conda activate # 配置成功 会出现
(base) [root@bigdata01 modules]#6、此时Anaconda已经下载完成 而在Anaconda中自带了一个python3——3.8.8#可以看一下cd /opt/installs/anaconda3/bin/python3# 而linux中自带的python是2.7.5 
7、创建软连接
ln -s /opt/installs/anaconda3/bin/python3 /usr/bin/python3

Anaconda 的命令

conda list:列举所有的包
conda install 包名:安装库包
conda remove 包名:移除库包base:Anaconda自带的基础环境
# 切换
conda activate base
# 关闭
conda deactivate

spark本地模式的配置

通过百度网盘分享的文件:spark-3.1.2-bin-hadoop3.2.tgz
链接:https://pan.baidu.com/s/1J2-d_qEubjcAXq_8LYi_hA?pwd=sgtm 
提取码:sgtm

        由于需要进行本地模式 集群-standalone 集群-yarn 三种模式的配置,所以后续是需要将该解压包解压三次的,通过创建软连接连接到不同的模式,若要修改只需要删除软连接,重新创建即可。

1、上传(上传到/opt/modules 下),解压(解压到/opt/installs 下),重命名
tar -zxvf /opt/install/spark-3.1.2-bin-hadoop3.2.tgz -C /opt/modules
mv spark-3.1.2-bin-hadoop3.2/ spark-local
2、创建一个软连接
ln -s spark-local spark
3、配置环境变量 vi /etc/profile
export SPARK_HOME=/opt/installs/spark
export PATH=$PATH:$SPARK_HOME/bin
4、刷新环境变量
source /etc/profile

本地模式的简单使用

运行自带或上传的py文件

spark-submit --master local[2] /opt/installs/spark/examples/src/main/python/pi.py  100

黑窗口的使用

/opt/installs/spark/bin/pyspark --master local[2]

此时会进入一个黑窗口

# 需求:将一个包含 1~ 10 共10个元素的列表,使用Spark实现分布式处理,将每个元素的平方输出# 1、定义一个列表
list1 = [1,2,3,4,5,6,7,8,9,10]
# 2、将列表通过SparkContext将数据转换为一个分布式集合RDD——将一个list变为Rdd对象
inputRdd = sc.parallelize(list1)# 获取行数 10行
inputRdd.count()
# 获取前n行的内容 ,放到一个list中,每行占一个
fileRdd.take(3)# 调用Rdd中的map方法 返回还是一个Rdd 
rsRdd = inputRdd.map(lambda x : x**2)# 将结果RDD的每个元素进行输出
rsRdd.foreach(lambda x : print(x))


http://www.mrgr.cn/news/68236.html

相关文章:

  • 【p2p、分布式,区块链笔记 Torrent】WebTorrent bittorrent-dht DHT的构造+lookup+announce
  • Java学习Day60:微服务总结!(有经处无火,无火处无经)
  • Hive面试题-- 查询各类型专利 top10 申请人及专利申请数
  • 浏览器存储策略解析(三)Local/sessionStorage实战:如何查看本地浏览器上数据
  • 谷粒商城のsentinelzipkin
  • yolo v5 开源项目
  • MQTT应用实例:Air780E模组AT指令的实践!
  • vue2 关闭 Uncaught error 的全屏提示
  • LabVIEW实验室液压制动系统
  • 【Unity】ScriptableObject的应用和3D物体跟随鼠标移动:鼠标放置物体在场景中
  • 无惧任天堂的法律威胁:Switch模拟器Ryujinx v1.2.72版发布
  • C#编程基础:静态成员与实例成员的区别及访问方式
  • 27系统日志查看
  • 【含开题报告+项目源码+免费部署】基于SSM的医院挂号住院系统的设计与实现
  • nginx中location模块中的root指令和alias指令区别
  • MQTT从入门到精通之 MQTT 客户端编程
  • LabVIEW程序员在工作中常见的挑战
  • 华为Mate70前瞻,鸿蒙NEXT正式版蓄势待发,国产系统迎来关键一战
  • 【CentOS】中的Firewalld:全面介绍与实战应用(上)
  • TCP/IP与HTTP协议:概念、关系与工作原理
  • 【Java知识】java基础-lambda语法详细说明
  • 14.C++ 特殊类与设计模式
  • C++ 的发展
  • 青少年编程与数学 02-003 Go语言网络编程 16课题、Go语言RPC编程
  • Java集合框架之List接口
  • Halcon刚性变换