当前位置: 首页 > news >正文

Java-数据结构-(HashMap HashSet)

一、Tree和Hash的区别

在上一篇文章中,我们讲到了"TreeMap""TreeSet",但当我们刷题的时候却会发现,实际应用Map和Set时,却常常都只会用"HashMap"和"HashSet",这是为什么呢?

① 效率不同

📚"TreeMap"和"TreeSet"

都是基于"红黑树"实现的,这种方法的实现就导致了无法直接查询到存储进去的数据,而是需要进去不断的查找,即便已经有了非常好的优化,树的遍历效率也只能达到O(logn)

📚"HashMap"和"HashSet"

是基于哈希表实现的,一般使用HashMap和HashSet进行存入和查找时,时间复杂度都能达到O(1)

而这种效率是远远高于O(logn)的,并且平时刷题时测试用例中都有大量难缠的数据,所以平时"Hash"的应用场景是多于"Tree"的。

② 适用场景不同

📚 "TreeMap"和"TreeSet"

这种数据结构会对存入的数据自动进行排序,适用于数据规模不太大或者需要有序数据或范围查询,使用TreeMap是一个很好的选择。

这里使用HashMap是没办法使用该方法的,因为HashMap并不会对数据进行排序

📚"HashMap"和"HashSet"

相对的,哈希表能做到快速存入和查询,肯定也有对应的缺点,那就是"不会对存入的数据进行自动排序"

但是实际中,对Map和Set的使用还是以"存入和查询"居多,所以"HashMap"和"HashSet"的使用还是会更多的。

二、哈希表

① 什么是哈希表?

通过上面我们能了解到,哈希表的存入和查询速率都是O(1)。

O(1)是什么概念?就是比较的次数非常少,甚至有时候可以忽略不计。

那么让我们回顾一下,之前学习的"排序算法"中,就有这么一种比较次数非常少的排序—"桶排序"
在哈希表的实现中,也使用了类似"桶排序"中的一种思想—"分桶的核心思想"

📕 分桶:哈希表通过某种规则将数据分散到多个容器(桶)中。

📕 映射规则:哈希表通过哈希函数映射键到桶。

哈希表除了使用了这种类似桶排序的分桶思想,剩下的操作比较类似于"计数排序"

📕 插入元素:根据待插入元素的关键码,计算出元素的存储位置。

📕 搜索元素:同样对关键码进行运算,并查找该位置,若关键码相同则搜索成功。

而其中对关键码进行操作就是通过"哈希函数"来进行转换的。

比如此时我们将哈希函数设置为:int index = key % elem.length;
那么对于元素的处理就会像这样

在这个存储过程中我们可以发现,并没有元素进行比较。这就是一种最理想的状态。但让我们再想想,如果再往表中插入14呢?24呢?34、44呢?

② 哈希冲突的概念

上面我们提到,如果在表中继续插入元素,如"14","24","34"等。它们经过哈希函数后,得到的对应位置与先前存入的"4"是一样的。

而这也就是"不理想的情况",因为遇到这种情况,我们的哈希表就需要进行"元素之间的比较"了,这种情况也被称为"哈希冲突"

③ 哈希冲突的避免

我们要知道,使用哈希表进行数据的存储时,造成"哈希冲突"是必然的

因为理想状态下我们通过哈希函数计算每个数据的对应键值并将数据存入哈希表中,但这也就意味着肯定会有些数据会计算出相同的键值并且哈希表的空间也是有限的(未扩容之前),当存入的数据达到一定的限度,则会出现"经常发生哈希冲突"的情况。

而为了避免这种情况发生,我们能做到的就是尽量设计一个合理的哈希函数。

哈希函数设计原则

📕 哈希函数的定义域必须包括需要存储的全部关键码,如果表中允许有n个地址,则哈希函数的值域必须在0到n-1之间

📕 哈希函数计算的值最好能均匀分布在整个空间中

④ 常见的哈希函数

📚 直接定制法:Hash(Key) = A * Key + B

优点:简单、均匀
缺点:需要事先知道关键字的分布情况使用场景

📚 除留余数法:Hash(key) = key % p(p<=m)

⑤ 负载因子调节

上面我们提到过

哈希表的空间也是有限的(未扩容之前),当存入的数据达到一定的限度,则会出现"经常发生哈希冲突"的情况。

这种情况会大大降低我们的哈希表的存取效率,而为了避免这种情况发生,我们就需要在每次存入数据时,计算一下此时哈希表的负载因子,如果此时的负载因子超过了我们希望的限定值,那么此时我们将对哈希表进行扩容。

1. 负载因子的定义

负载因子表示哈希表中已存储元素数量与当前总容量的比值

如:此时哈希表容量为 10 ,已存入 7 个元素,则此时的负载因子为 0.7 。

2. 负载因子的作用

📕 衡量哈希表填充程度:

负载因子越高,哈希表填充越满,发生哈希冲突的概率越大。

📕 触发扩容的阈值:

当负载因子超过预设值(java中默认为0.75,后续我们模拟实现哈希表也会采取这个阈值)时,哈希表自动扩容,以降低冲突概率。

📕 平衡时间与空间开销:

低负载因子:冲突少,操作效率高,但内存利用率低。
高负载因子:内存利用率高,但冲突频繁,操作效率下降。

⑥ 冲突的解决方案(开放寻址法)

1. 线性探测

📕 规则

若当前的桶已经被占用,则顺序查询下一个桶(如 index = (index + 1) % size),直到找到空桶。

📕 优点:实现简单,空间利用率高,缓存性能好(连续存储)。

📕 缺点:产生聚集现象(大量连续占用桶),导致查找效率下降。

📕 适用场景:负载因子较低时。

2. 二次探测

📕 规则:

使用第二个哈希函数计算下一个空位置(如:index1 = (index0 + i ^ 2) % m)

📕 优点:冲突分布更均匀,减少聚集。

📕 缺点:装载因子不能太大,否则性能会急剧下降,容易发生二次聚集。

📕 适用场景:对性能要求高的场景。

⑦ 冲突的解决方案(链地址法)

又叫做"开散列法",我们需要对传进的数据关键码通过散列函数计算出散列地址,将具有相同地址的关键码放入同一个子集合中,每一个子集合都是一个桶,每个桶中的元素都通过一个单链表进行连接,然后将每个链表的结点都存储在哈希表中。

三、哈希表的模拟实现

 ① 基本框架

在这里我们采用"开散列法"

所以我们需要用到链表结构,因此我们需要在基本框架中实现一个结点类

同时,我们还需要设定一个触发扩容的阈值(负载因子),上面我们提到java中默认为0.75,所以我们这里也使用0.75作为触发扩容的阈值。

📖 代码示例

public class HashBucket {public static class Node {public int key;public int val;public Node next;public Node(int key, int val) {this.key = key;this.val = val;}}//初始哈希表public Node[] elem = new Node[10];public int usedSize;//负载因子public static final double LOAD_FACTOR = 0.75;
}

② 插入元素

实现插入元素,我们需要考虑很多种情况,比如:如何避免哈希冲突,将结点插入链表的何处,在何时计算负载因子,如何进行扩容等。

这里我们一个个的进行讲解

📕 如何避免哈希冲突

我们采用"开散列法",首先通过哈希函数寻找对应链表的index

int index = key % elem.length;

然后判断当前index指向的链表中是否含有key,如果存在key,则修改结点的值为新的val。

📕 将结点插入链表何处

如果不存在key,则将新节点插入链表(尾插和头插都可以,这里我们采取头插法)

📕 在何时计算负载因子

当新元素加入后,计算此时的负载因子,如果超过阈值则扩容

📖 代码示例

    //新增元素public void put(int key,int val){//1.通过哈希函数,找到对应链表的indexint index = key % elem.length;//2.判断当前的链表是否有keyNode cur = elem[index];while(cur != null){//3.找到key,修改改结点的valif(cur.key == key){cur.val = val;return;}cur = cur.next;}//4.如果没有key,则将新结点插入链表(这里采取头插法)Node newCur = new Node(key,val);newCur.next = elem[index];elem[index] = newCur;usedSize++;//5.计算当前的负载因子,如果超过则扩容if(getLoadFactor() >= LOAD_FACTOR){upsize();}}//计算当前负载因子public double getLoadFactor(){return usedSize * 1.0 / elem.length;}

③ 哈希表扩容

当为哈希表进行扩容时,并不是简单的将数组大小扩大一倍即可,因为可能会发生如下情况:

当扩容之后,其实14应该放在新的空间14内,而不是还处在4的位置,所以哈希表的扩容其实是一个(再次哈希)的过程,这个过程的时间复杂度是O(n)的,需要我们遍历所有元素,重新创建一个哈希表:

📖 代码示例

    //哈希表扩容(再次哈希)public void upsize(){//1.创建新的哈希表Node[] newElem = new Node[elem.length * 2];for(int i = 0;i < elem.length;i++){Node cur = elem[i];while(cur != null){Node curN = cur.next;int index = cur.key % newElem.length;cur.next = newElem[index];newElem[index] = cur;cur = curN;}}elem = newElem;}

④ 获取元素

这个就很简单了,经过之前我们对各种数据结构的学习,对于大家来说肯定也是不必多说,只需要计算出对应链表的index并遍历链表求目标元素即可。

📖 代码示例

    //通过key获取元素public int get(int key) {//找到key的对应下标int index = key % elem.length;Node cur = elem[index];//查找链表while (cur != null) {if (cur.key == key) {return cur.val;}cur = cur.next;}return -1;}

⑤ 测试

我们设定初始大小为10,扩容阈值为0.75,此时我们向哈希表中存入八个元素:

当存储到14时,14存在index = 4的链表中

当存入第八个元素,也就是19的时候,就会触发扩容,此时我们的14应该从index = 4的链表,移动到新的index = 14的位置上:

四、自定义类使用哈希表

📖 People:

class People {public int id;public String name;public People(int id,String name) {this.id = id;this.name = name;}
}

有些时候,我们希望对自定义的一些类也是使用哈希表进行存储,但是有时会发生这样的情况

明明姓名和id都相同,但却找不到对应的人,这是为什么呢?

这就取决于java内部哈希函数如何计算了

📕 与 equals() 的一致性:若两个对象相等,则它们的哈希值必须相同。

📕 基于内存地址:默认返回对象内部地址的整数表示

📕 问题:不同对象即使内容相同,哈希值也不同

是的,所以找不到对应的对象是因为地址不同,那么如果想查找到对应的对象,我们就需要在自定义类中重写 hashCode() 和 equals() 方法

那么这篇关于哈希表(HashMap,HashSet)的文章到这里就结束啦,作者能力有限,如果有哪里说的不够清楚或者不够准确,还请各位在评论区多多指出,我也会虚心学习的,我们下次再见啦


http://www.mrgr.cn/news/91423.html

相关文章:

  • 【实用技巧】云服务器+FRP搭建自己的远程控制向日葵
  • 计算机毕业设计Python商品推荐系统 商品比价系统 电商比价系统 商品可视化(代码+LW文档+PPT+讲解视频)
  • Rust中的collections
  • 2013年下半年软件设计师上午题考察知识点及其详细解释(附真题及答案解析)
  • Leetcode2080:区间内查询数字的频率
  • 文档检测校正的重要性
  • Mycat中间件
  • 【TI C2000】F28002x的系统延时、GPIO配置及SCI(UART)串口发送、接收
  • leetcode-495.提莫攻击
  • 【16届蓝桥杯寒假刷题营】第2期DAY1I
  • 视点坐标及鼠标交点坐标的信息显示(七)
  • 基于SpringBoot的“高考志愿智能推荐系统”的设计与实现(源码+数据库+文档+PPT)
  • 计算机视觉中图像的基础认知
  • Chrome多开终极形态解锁!「窗口管理工具+IP隔离插件
  • 计算机视觉:卷积神经网络(CNN)基本概念(一)
  • 【深度解析】图解Deepseek-V3模型架构-混合专家模型(MoE)
  • VMware Workstation 17.0 Pro创建虚拟机并安装Ubuntu22.04与ubuntu20.04(双版本同时存在)《包含小问题总结》
  • 【数据结构基础_链表】
  • mysql 学习16 视图,存储过程,存储函数,触发器
  • SQL复习