pyspark基础准备
1.前言介绍
学习目标:了解什么是Speak、PySpark,了解为什么学习PySpark,了解课程是如何和大数据开发方向进行衔接
使用pyspark库所写出来的代码,既可以在电脑上简单运行,进行数据分析处理,又可以把代码无缝迁移到成百上千的服务器集群上去做分布式计算。
为什么要学习pyspark呢?
总结
2.基础准备
学习目标:掌握pyspark库的安装,掌握pyspark执行环境入口对象的构建,理解pyspark的编程模型。
建议使用国内代理镜像网站下载更快。
简化代码,本质上是同一个意思,链式结构,链式调用化简程序 基本原则,就是我不管调用什么方法,我的返回值都是同一个对象啊
代码展示: """ 演示获取pyspark的执行环境入库对象:SparkContext 并通过SparkContext对象获取当前PySpark的版本 """# 导包 from pyspark import SparkConf,SparkContext # 创建SparkConf类对象 setMaster是描写运行模式 setAppName是设置当前Spark任务的名字 conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app") # 同一个意思,链式结构,链式调用化简程序 # 基本原则,就是我不管调用什么方法,我的返回值都是同一个对象啊 # 基于SparkConf类对象创建SparkContext对象 sc = SparkContext(conf=conf) # 打印PySpark的运行版本 print(sc.version) # 停止SparkContext对象的运行(停止PySpark程序) sc.stop()
spark需要启动时间,所以代码的运行一小会,3.5.3就是当前spark的运行版本
这个sc非常非常重要哦,后续给大家讲解。
通过sc拿到数据输入,数据处理计算是通过RDD类对象的一系列成员方法来对数据进行计算,然后把结果对外进行输出
我们只需要记住后期写spark代码的三大步,把数据加载进来,对数据进行计算,把结果输出去