当前位置：首页 > news >正文

Spark实训

news 2025/4/26 18:32:51

实训目的：

介绍本实训的基本内容，描述知识目标、，以及本实训的预期效果等。
1、知识目标
（1）了解spark概念、基础知识、spark处理的全周期，了解spark技术是新时代对人才的新要求。
（2）掌握Linux、hadoop、spark、hive集群环境的搭建、HDFS分布文件系统的基础知识与应用。
（3）了解 RDD原理，掌握Scala的编程语言。
（4）了解Hive，学习Hive集群的搭建。
（5）了解spark SQL结构，搭建集群，熟练使用HiveQL语句
2、技能目标
（1）掌握spark、Scala的基础知识及在大数据技术的应用。
（2）掌握hadoop、spark、hive集群环境的搭建与HDFS分布式文件系统的灵活应用。
（3）掌握数据存储与管理，数据处理与分析等基本方法。。
（4）通过实际案例的开发，了解spark、Scala的基本开发技术。
（5）掌握Hive集群的搭建和基本使用方法。
3、素质目标
（1）认识spark在新时代对企业的重要性。
（2）具备Scala思维，熟悉Scala是新时代对人才的新要求，具备从编程角度分析未来的发展趋势，主动适应社会发展，做对社会对国家有用之人。
（3）通过综合案例实践，掌握spark、Scala以及相关框架的使用。
（4）通过项目的团队实践，掌握使用spark大数据处理的能力及解决问题的创新能力，培养学生实践开发能力及团队合作能力。

实训条件：

1、教学基本设施条件

本次实训使用思源楼1211机房，基本能够保证运行Hadoop、spark、hive集群，能够进行基本的大数据开发调试，计算机硬件基本满足以下的最低配置：内存至少8GB，硬盘可用容量至少100GB，CPU为Intel i5以上的多核（建议八核及以上）处理器。
相关软件安装包及其版本说明:
spark-3.2.1-bin-hadoop2.7.tar
Hadoop-3.1.4.tar
apache-hive-3.1.2-bin
course score student teacher word online_retail avgTemperature Volleyball_Players.csv文档
IDEA软件