当前位置: 首页 > news >正文

十、有C/C++/Java基础,迅速掌握Python,B站黑马2022版教程笔记(自用)

每篇必看前言:

该笔记适用于有C/C++/Java基础的想要迅速掌握Python语法的人。

该笔记是以B站黑马2022版教程为背景,所作的笔记。

链接数据库:

初始链接:

from pymysql import Connectionconn = Connection(host="localhost",port=3306,  # 固定端口user="root",password="123456"
)print(conn.get_server_info()) # 打印mysql的软件版本
conn.close()

创建表:

from pymysql import Connectionconn = Connection(host="localhost",port=3306,user="root",password="123456"
)
conn.select_db("test") # 选择数据库
cursor=conn.cursor() # 获取游标对象
cursor.execute("create table test_pymysql(id int);")
# 创建表test_pymysql ATT:这里的分号可写可不写,但是mysql中写sql语句要加分号
conn.close()

查询表:

from pymysql import Connectionconn = Connection(host="localhost",port=3306,user="root",password="123456"
)
conn.select_db("mybatis")
cursor=conn.cursor() # 获取游标对象
cursor.execute("select * from tb_brand;") 
results: tuple = cursor.fetchall() # fetchall拿到查询结果
for r in results:print(r)
conn.close()

PySpark(机器学习):

编程模型:

通过SparkContext对象作为编程入口,读取JSON文件、文本文件、数据库数据等数据,然后转换为RDD类对象,进行数据处理计算,最后完成写出文件、转换为list等数据输出操作。

RDD:弹性分布式数据集

数据输入:

from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/dev/python3.10.4/python.exe"
# 告诉spark我的python解释器在哪# 创建SparkConf类对象cf
cf=SparkConf().setMaster("local[*]").setAppName("test_spark")# 这里相当于链式调用 cf=SparkConf()
# cf.setMaster("local[*]")
# cf.setAppName("test_spark")# 基于cf创建SparkContext类对象sc
sc=SparkContext(conf=cf)
# 打印PySpark的运行版本
print(sc.version)
# 停止sc的运行,即停止PySpark程序
sc.stop()

ATT:这里结果的报红没有关系,是Pyspark的内置板块的问题。

将Python内置数据容器转换为RDD对象

通过sc.parallelize(数据容器对象)得到RDD对象

通过RDD对象.collect()得到RDD对象的内容

ATT:字符串会被拆分成单个字符存入RDD对象。字典仅有key被存入RDD对象。

from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/dev/python3.10.4/python.exe"
# 告诉spark我的python解释器在哪cf=SparkConf().setMaster("local[*]").setAppName("test_spark")
sc=SparkContext(conf=cf)rdd_list = sc.parallelize([1, 2, 3, 4, 5])
rdd_set = sc.parallelize({1, 2, 3, 4, 5})
rdd_tumple = sc.parallelize((1, 2, 3, 4, 5))
rdd_str = sc.parallelize("1, 2, 3, 4, 5")
rdd_dict = sc.parallelize({"key1": 1, "key2": 2})print(rdd_list.collect())
print(rdd_set.collect())
print(rdd_tumple.collect())
print(rdd_str.collect())
print(rdd_dict.collect())sc.stop()

将文本文件转换为RDD对象:

通过sc.textFile(文本文件地址)得到RDD对象。

通过RDD对象.collect()得到RDD对象的内容

有test.txt:

from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/dev/python3.10.4/python.exe"
# 告诉spark我的python解释器在哪cf=SparkConf().setMaster("local[*]").setAppName("test_spark")
sc=SparkContext(conf=cf)rdd_text=sc.textFile("D:/重要文件保护/Desktop/test.txt")print(rdd_text.collect())sc.stop()

数据计算(RDD成员方法\算子)

map算子:

将RDD的数据一条条处理(处理逻辑基于map算子中接受的处理函数),返回新的RDD

其处理函数要求传入参数只能有一个,且返回值类型也只有一个。传参和返回值类型可以不一样。即(U)->T

from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/dev/python3.10.4/python.exe"
# 告诉spark我的python解释器在哪cf=SparkConf().setMaster("local[*]").setAppName("test_spark")
sc=SparkContext(conf=cf)rdd = sc.parallelize([1, 2, 3, 4, 5])def Myfun(x):return 10*x# rdd1 = rdd.map(lambda x: 10*x) # 可以使用lambda表达式
rdd1 = rdd.map(Myfun)print(rdd1.collect())sc.stop()

flatmap算子:

与map算子只有一个区别,就是flatmap解除了嵌套。

嵌套的list:lst =[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

解除嵌套的list:lst=[1, 2, 3, 4, 5, 6, 7, 8, 9]

from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/dev/python3.10.4/python.exe"cf=SparkConf().setMaster("local[*]").setAppName("test_spark")
sc=SparkContext(conf=cf)rdd = sc.parallelize(["shanshan deisu", "suki daisuki", "no more to say"])
# 如果我想要拿到单个的单词
rdd1 = rdd.map(lambda x: x.split(" "))
rdd2 = rdd.flatMap(lambda x: x.split(" "))print(rdd1.collect())
print(rdd2.collect())sc.stop()

reduceByKey算子:

功能:针对Key-Value型RDD(实际就是二元元组),按照key分组并完成组内Value的聚合,分组逻辑是依据提供的处理函数完成的。

可以处理二元元组。

其处理函数要求传入参数有两个,返回值类型只有一个。

传参和返回值类型必须一样。即(V,V)->V

from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/dev/python3.10.4/python.exe"cf=SparkConf().setMaster("local[*]").setAppName("test_spark")
sc=SparkContext(conf=cf)
# 标黄的()改成{}或[]都是可以的
rdd= sc.parallelize((("shanshan", 1), ("zhengzheng", 1), ("shanshan", 2), ("zhengzheng", 3)))
# 如果我想要拿到单个的单词
rdd1 = rdd.reduceByKey(lambda x, y: x+y)print(rdd1.collect())sc.stop()

应用场景:单词计数

在同目录下有个hello.txt文件,目的是统计文件内的单词数

from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/dev/python3.10.4/python.exe"cf=SparkConf().setMaster("local[*]").setAppName("test_spark")
sc=SparkContext(conf=cf)rdd = sc.textFile("hello.txt")# 拿到单个单词
rdd_words = rdd.flatMap(lambda x: x.split(" "))# 将单个单词变为二元元组,value=1
rdd_cnt = rdd_words.map(lambda x: (x, 1))# 用reduceByKey对二元元组进行聚合
rdd_final =rdd_cnt.reduceByKey(lambda x, y: x+y)print(rdd_final.collect())sc.stop()

filter算子:

功能是根据处理函数过滤掉一些数据

rdd = sc.parallelize([1, 2, 3, 4, 5])# 偶数保留 奇数过滤
rdd_final = rdd.filter(lambda x: (x % 2) == 0)print(rdd_final.collect())

distinct算子:

功能是直接去重,无需传参。

rdd = sc.textFile("hello.txt")
rdd2 = rdd.flatMap(lambda x: x.split(" "))print(rdd2.collect())
print(rdd2.distinct().collect())

sortBy算子:

功能是:依据处理函数对数据进行排序。

语法是:rdd.sortBy(func, ascending=False, numPartitions=1)

其中func表示的是告知rdd按哪个数据进行排序。如lambda x: x[1] 表示按照rdd中的第二列元素进行排序。

ascending=True表示从小到大排序,False表示从大到小排序。

numPartitions表示分区数的意思,目前暂记为1即可。

例:对应用场景:单词计数进行出现次数从大到小的排序。

rdd_final =rdd_cnt.reduceByKey(lambda x, y: x+y)
print(rdd_final.collect())rdd_release = rdd_final.sortBy(lambda x: x[1], ascending = False, numPartitions = 1)
print(rdd_release.collect())

全部算子应用场景:

import jsonfrom pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"] = "D:/dev/python3.10.4/python.exe"cf=SparkConf().setMaster("local[*]").setAppName("test_spark")
sc=SparkContext(conf=cf)rdd = sc.textFile("orders.txt")# 拿到单个json数据
rdd1 = rdd.flatMap(lambda x: x.split("|"))
print("拿到单个json数据")
print(rdd1.collect())# 将单个json数据转换为字典
rdd2 = rdd1.map(lambda x: json.loads(x))
print("\n将单个json数据转换为字典")
print(rdd2.collect())# 将数据设为(城市,销售额)二元组
rdd3 = rdd2.map(lambda x: (x["areaName"], int(x["money"])))
print("\n将数据设为(城市,销售额)二元组")
print(rdd3.collect())# 按城市分组进行聚合
rdd4 = rdd3.reduceByKey(lambda x, y:x+y)
print("\n按城市分组进行聚合")
print(rdd4.collect())# 按销售额从大到小排序
rdd5 = rdd4.sortBy(lambda x: x[1], ascending= False, numPartitions=1)
print("\n按销售额从大到小排序")
print(rdd5.collect())
print("\需求1已完成")# 只看商品类别
rdd6 = rdd2.map(lambda x: x["category"])
print("\n只看商品类别")
print(rdd6.collect())# 去重并打印
print("\n去重并打印")
print(rdd6.distinct().collect())
print("\需求2已完成")# 过滤掉除了北京市的数据
print("\n过滤掉除了北京市的数据")
rdd7 = rdd2.filter(lambda x: x["areaName"]=="北京")
print(rdd7.collect())print("\n只看北京的商品类别")
rdd8 =rdd7.map(lambda x: x["category"])
print(rdd8.collect())print("\n去重并打印")
print(rdd8.distinct().collect())
print("\需求3已完成")sc.stop()

数据输出:

collect算子:

功能:将RDD各个分区内的数据,统一收集到Driver中,形成一个List对象。即,返回值是一个list。

reduce算子:

功能:将数据按照处理函数进行聚合。func: (T,T)->T 。即,需要两个相同类型的参数传入,并返回同类型的一个返回值。

rdd=sc.parallelize(range(1, 10))
print(rdd.reduce(lambda x, y: x+y))

take算子:

功能:取RDD的前N个元素,组成一个list并返回。


http://www.mrgr.cn/news/70753.html

相关文章:

  • Kafka参数了解
  • opencv常用api
  • Openstack7--安装消息队列服务RabbitMQ
  • ts 中 ReturnType 作用
  • 多商户中英双语电商系统设计与开发 PHP+mysql
  • MySQL核心业务大表归档过程
  • 高字节,低字节,大端序,小端序
  • 学习python的第九天之数据类型——tuple元组
  • 数学建模模型算法-Python实现
  • 自动渗透测试与手动渗透测试
  • springboot和vue:十六、JWT跨域认证代码(Cookie、Session、Token)
  • 深入浅出JUC常用同步器
  • 【漏洞复现】用友 U8CRM leadconversion.php Sql注入漏洞
  • 基于STM32U575RIT6智能除湿器项目
  • 【星闪EBM-H63开发板】AT固件的配置与测试
  • 121页PPT | 企业战略规划全景:战略设计、工具、模板和分析方法
  • JAVA完成猜数字小游戏
  • python练习-Django web入门
  • STM32:ADC
  • 万字长文解读机器学习——决策树
  • [C++]——位图与布隆过滤器
  • Rust 模板匹配——根据指定图片查找处于大图中的位置(支持GPU加速)
  • APP封装系统 app误报毒app可上传 自动实现5分钟随机更换包名和签名
  • VMnet NAT模式配置
  • Perfetto中如何使用SQL语句
  • MutationObserver与IntersectionObserver的区别