当前位置: 首页 > news >正文

Spark实训

实训目的:

介绍本实训的基本内容,描述知识目标、,以及本实训的预期效果等。
1、知识目标
(1)了解spark概念、基础知识、spark处理的全周期,了解spark技术是新时代对人才的新要求。
(2)掌握Linux、hadoop、spark、hive集群环境的搭建、HDFS分布文件系统的基础知识与应用。
(3)了解 RDD原理,掌握Scala的编程语言。
(4)了解Hive,学习Hive集群的搭建。
(5)了解spark SQL结构,搭建集群,熟练使用HiveQL语句
2、技能目标
(1)掌握spark、Scala的基础知识及在大数据技术的应用。
(2)掌握hadoop、spark、hive集群环境的搭建与HDFS分布式文件系统的灵活应用。
(3)掌握数据存储与管理,数据处理与分析等基本方法。。
(4)通过实际案例的开发,了解spark、Scala的基本开发技术。
(5)掌握Hive集群的搭建和基本使用方法。
3、素质目标
(1)认识spark在新时代对企业的重要性。
(2)具备Scala思维,熟悉Scala是新时代对人才的新要求,具备从编程角度分析未来的发展趋势,主动适应社会发展,做对社会对国家有用之人。
(3)通过综合案例实践,掌握spark、Scala以及相关框架的使用。
(4)通过项目的团队实践,掌握使用spark大数据处理的能力及解决问题的创新能力,培养学生实践开发能力及团队合作能力。

实训条件:

1、教学基本设施条件

本次实训使用思源楼1211机房,基本能够保证运行Hadoop、spark、hive集群,能够进行基本的大数据开发调试,计算机硬件基本满足以下的最低配置:内存至少8GB,硬盘可用容量至少100GB,CPU为Intel i5以上的多核(建议八核及以上)处理器。
相关软件安装包及其版本说明:
spark-3.2.1-bin-hadoop2.7.tar
Hadoop-3.1.4.tar
apache-hive-3.1.2-bin
course score student teacher word online_retail avgTemperature Volleyball_Players.csv文档
IDEA软件

Hadoop环境配置

修改配置start-dfs.sh和stop-dfs.sh文件
在这里插入图片描述

修改配置start-yarn.sh和stop-yarn.sh文件
在这里插入图片描述在这里插入图片描述

修改配置文件/etc/hosts
在这里插入图片描述

克隆虚拟机

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


http://www.mrgr.cn/news/79335.html

相关文章:

  • 【Redis】Redis 缓存更新策略
  • 路径规划 | 改进的人工势场法APF算法进行路径规划(Matlab)
  • 24上半年系统分析师考题个人回忆版
  • LabVIEW偏心圆筒流变仪测控系统
  • 使用html 和javascript 实现微信界面功能1
  • 神经网络前馈型VS.反馈型
  • C++中参数传递方式介绍
  • 【AIGC半月报】AIGC大模型启元:2024.12(上)
  • 西门子 SINAMICS G120 变频器借助 ProfiNet 转 EtherCAT 实现与汇川 H5U 通讯实例
  • 【开发文档】资源汇总,持续更新中......
  • dd破坏asm磁盘头恢复---惜分飞
  • MFEM源码分析:代数库
  • 清风数学建模学习笔记——Topsis法
  • WLAN AutoConfig服务假死?重启服务恢复网络连接!
  • 典型常见的知识蒸馏方法总结一
  • 欧拉角和旋转矩阵之间的转换
  • 高级 CEF 内核集成与 VC++——开发环境搭建与配置
  • 解决靶场网络问题教程(详细版)
  • 微服务架构解析:跨越传统架构的技术革命
  • 关于小标join大表,操作不当会导致笛卡尔积,数据倾斜
  • go引入skywalking
  • 大语言模型(2)--GPT-1
  • 【C语言】C语言的潜规则:运行环境对C程序执行特性的影响
  • 高级 CEF 内核集成与 VC++——CEF系统架构与开发环境搭建
  • 数据结构代码归纳
  • 大数据新视界 -- 大数据大厂之 Hive 临时表与视图:灵活数据处理的技巧(上)(29 / 30)