当前位置: 首页 > news >正文

【赵渝强老师】Hive的分区表

在这里插入图片描述

Hive的分区表跟Oracle、MySQL中分区表的概念是一样的。当表上建立了分区,就会根据分区的条件从物理存储上将表中的数据进行分隔存储。而当执行查询语句时候,也会根据分区的条件扫描特定分区中的数据,从而避免全表扫描以提高查询的效率。Hive分区表中的每个分区将会在HDFS上创建一个目录,分区中的数据则是该目录下的文件。在执行查询语句时,可以通过SQL的执行计划了解到是否在查询的时候扫描的特定的分区。视频讲解如下:

Hive的分区表

【赵渝强老师】Hive的分区表

注意:Hive的分区表具体又可以分为:静态分区表和动态分区表。

一、【实战】使用Hive的静态分区表

静态分区表需要在插入数据的时候显式指定分区的条件。下面通过具体的步骤来演示如何创建并使用Hive的静态分区表。视频讲解如下:

Hive的静态分区表

【赵渝强老师】Hive的静态分区表

(1)创建静态分区表。

hive> create table emp_part(empno int,ename string,job string,mgr int,hiredate string,sal int,comm int)partitioned by (deptno int)row format delimited fields terminated by ',';

(2)往静态分区表中插入数据时,需要指定具体的分区条件。下面的语句使用了三条insert语句分别从内部表中查询出了10、20和30号部门的员工数据,并插入到分区表中,如下图所示。

hive> insert into table emp_part partition(deptno=10) select empno,ename,job,mgr,hiredate,sal,comm from emp where deptno=10;hive> insert into table emp_part partition(deptno=20) select empno,ename,job,mgr,hiredate,sal,comm from emp where deptno=20;hive> insert into table emp_part partition(deptno=30) select empno,ename,job,mgr,hiredate,sal,comm from emp where deptno=30;

在这里插入图片描述

(3)通过explain语句查看SQL的执行计划,如查询10号部门的员工信息。通过执行计划,可以看出扫描的数据量大小是118B。如下图所示。

在这里插入图片描述

(4)下图是查询普通的内部表的执行计划,可以看出扫描的数据量大小是6290B。

在这里插入图片描述

二、使用Hive的动态分区表

动态分区表则可以根据插入的数据动态建立分区。下面通过具体的步骤来演示如何创建并使用Hive的动态分区表。

注意:Hive的动态分区表默认使用最后一个字段作为分区名,需要分区的字段只能放在后面,不能把顺序弄错。向动态分区表中插入数据时,Hive是根据查询字段的位置推断分区名的,而不是字段名称。

(1)启动动态分区。

hive> set hive.exec.dynamic.partition =true;
hive> set hive.exec.dynamic.partition.mode = nonstrict;

注意:参数hive.exec.dynamic.partition的默认值是false,表示禁用动态分区功能;参数hive.exec.dynamic.partition.mode的默认值是strict,表示必须有静态分区字段。

(2)据员工的job建立单字段动态分区表。

hive> create table dynamic_part_emp(empno int,ename string,sal int)partitioned by (job string);

视频讲解如下:

单字段动态分区表

【赵渝强老师】Hive的单字段动态分区表

(3)向dynamic_part_emp分区表中插入数据。

hive> insert into table dynamic_part_emp select empno,ename,sal,job from emp;

注意:这里将会使用查询语句的最后一个字段job作为动态分区的条件。

(4)创建半自动分区表。

hive> create table dynamic_part_emp1(empno int,ename string,sal int)partitioned by (deptno int,job string); 

注意:半自动分区表是指部分字段采用静态分区,而另一部分自动采用动态分区,且静态分区字段要在动态分区前面。

视频讲解如下:

半自动分区表

【赵渝强老师】Hive的半自动动态分区表

(5)向dynamic_part_emp1分区表中插入数据。

hive> insert into table dynamic_part_emp1 partition(deptno=10,job) select empno,ename,sal,job from emp where deptno=10;

注意:由于部门号deptno采用静态分区,因此需要在插入数据的时候指定deptno作为静态分区的条件;而这里的job采用的动态分区。

(6)创建多字段全动态分区表。

hive> create table dynamic_part_emp2(empno int,ename string,sal int)partitioned by (deptno int,job string);

视频讲解如下:

多字段全动态分区表

【赵渝强老师】Hive的多字段全动态分区表

(7)向dynamic_part_emp2分区表中插入数据。

hive> insert into table dynamic_part_emp2 select empno,ename,sal,deptno,job from emp;

注意:这里会根据deptno和job两个字段来创建动态分区。


http://www.mrgr.cn/news/60202.html

相关文章:

  • cmake命令使用
  • 2024 Rust现代实用教程:1.2编译器与包管理工具以及开发环境搭建
  • SRIO接口,FPGA实现,学习笔记。
  • 京东商品详情API详解:全面掌握返回值字段
  • WebSocket简单使用
  • 一站式学习 Shell 脚本语法与编程技巧,踏出自动化的第一步
  • Leetcode 3334. Find the Maximum Factor Score of Array
  • MATLAB生态环境数据处理与分析
  • 新手逆向实战三部曲之二——通过更改关键跳注册软件(爆破)
  • 互联网摸鱼日报(2024-10-28)
  • CHAPTER 14 Nonlinearity and Mismatc
  • 【vue】前端使用modern-screenshot截取屏幕截图
  • 【java】java的基本程序设计结构02-数据类型
  • 如何管理供应商、实现供应商协同管理?
  • 高效MySQL缓存策略
  • 【ArcGISPro】you must install or update .net to run this application.
  • 聚观早报 | EZ-6正式上市;小米15系列售价或将上调
  • 校园气膜体育馆:学生锻炼与成长的新空间—轻空间
  • 【MySQL 保姆级教学】表数据的操作--下(8)
  • 51c嵌入式~IO合集1
  • 【golang】json.Unmarshal接收JSON数据并验证特定的字段
  • Java 基础教学:流程控制-循环结构
  • Linux下的常见指令以及权限
  • 高清 MV 无字幕视频素材
  • VUE3实现古典音乐网站源码模板
  • 直播系统源码技术搭建部署流程及配置步骤