当前位置：首页 > news >正文

Java-数据结构-(HashMap HashSet)

news 2025/2/21 3:37:23

一、Tree和Hash的区别

在上一篇文章中，我们讲到了"TreeMap"和"TreeSet"，但当我们刷题的时候却会发现，实际应用Map和Set时，却常常都只会用"HashMap"和"HashSet"，这是为什么呢？

① 效率不同

📚"TreeMap"和"TreeSet"：

都是基于"红黑树"实现的，这种方法的实现就导致了无法直接查询到存储进去的数据，而是需要进去不断的查找，即便已经有了非常好的优化，树的遍历效率也只能达到O(logn)。

📚"HashMap"和"HashSet"：

是基于哈希表实现的，一般使用HashMap和HashSet进行存入和查找时，时间复杂度都能达到O(1)。

而这种效率是远远高于O(logn)的，并且平时刷题时测试用例中都有大量难缠的数据，所以平时"Hash"的应用场景是多于"Tree"的。

② 适用场景不同

📚 "TreeMap"和"TreeSet"：

这种数据结构会对存入的数据自动进行排序，适用于数据规模不太大，或者需要有序数据或范围查询时，使用TreeMap是一个很好的选择。

这里使用HashMap是没办法使用该方法的，因为HashMap并不会对数据进行排序。

📚"HashMap"和"HashSet"：

相对的，哈希表能做到快速存入和查询，肯定也有对应的缺点，那就是"不会对存入的数据进行自动排序"

但是实际中，对Map和Set的使用还是以"存入和查询"居多，所以"HashMap"和"HashSet"的使用还是会更多的。

二、哈希表

① 什么是哈希表？

通过上面我们能了解到，哈希表的存入和查询速率都是O(1)。

O(1)是什么概念？就是比较的次数非常少，甚至有时候可以忽略不计。

那么让我们回顾一下，之前学习的"排序算法"中，就有这么一种比较次数非常少的排序—"桶排序"
在哈希表的实现中，也使用了类似"桶排序"中的一种思想—"分桶的核心思想"

📕 分桶：哈希表通过某种规则将数据分散到多个容器(桶)中。

📕 映射规则：哈希表通过哈希函数映射键到桶。

哈希表除了使用了这种类似桶排序的分桶思想，剩下的操作比较类似于"计数排序"

📕 插入元素：根据待插入元素的关键码，计算出元素的存储位置。

📕 搜索元素：同样对关键码进行运算，并查找该位置，若关键码相同则搜索成功。

而其中对关键码进行操作就是通过"哈希函数"来进行转换的。

比如此时我们将哈希函数设置为：int index = key % elem.length;
那么对于元素的处理就会像这样：

在这个存储过程中我们可以发现，并没有元素进行比较。这就是一种最理想的状态。但让我们再想想，如果再往表中插入14呢？24呢？34、44呢？

② 哈希冲突的概念

上面我们提到，如果在表中继续插入元素，如"14"，"24"，"34"等。它们经过哈希函数后，得到的对应位置与先前存入的"4"是一样的。

而这也就是"不理想的情况"，因为遇到这种情况，我们的哈希表就需要进行"元素之间的比较"了，这种情况也被称为"哈希冲突"。

③ 哈希冲突的避免

我们要知道，使用哈希表进行数据的存储时，造成"哈希冲突"是必然的。

因为理想状态下我们通过哈希函数，计算每个数据的对应键值并将数据存入哈希表中，但这也就意味着肯定会有些数据会计算出相同的键值，并且哈希表的空间也是有限的(未扩容之前)，当存入的数据达到一定的限度，则会出现"经常发生哈希冲突"的情况。

而为了避免这种情况发生，我们能做到的就是：尽量设计一个合理的哈希函数。

哈希函数设计原则：

📕 哈希函数的定义域必须包括需要存储的全部关键码，如果表中允许有n个地址，则哈希函数的值域必须在0到n-1之间

📕 哈希函数计算的值最好能均匀分布在整个空间中

④ 常见的哈希函数

📚 直接定制法：Hash(Key) = A * Key + B

优点：简单、均匀
缺点：需要事先知道关键字的分布情况使用场景

📚 除留余数法：Hash(key) = key % p(p<=m)

⑤ 负载因子调节

上面我们提到过：

哈希表的空间也是有限的(未扩容之前)，当存入的数据达到一定的限度，则会出现"经常发生哈希冲突"的情况。

这种情况会大大降低我们的哈希表的存取效率，而为了避免这种情况发生，我们就需要在每次存入数据时，计算一下此时哈希表的负载因子，如果此时的负载因子超过了我们希望的限定值，那么此时我们将对哈希表进行扩容。

1. 负载因子的定义

负载因子：表示哈希表中已存储元素数量与当前总容量的比值

如：此时哈希表容量为 10 ，已存入 7 个元素，则此时的负载因子为 0.7 。

2. 负载因子的作用

📕 衡量哈希表填充程度：

负载因子越高，哈希表填充越满，发生哈希冲突的概率越大。

📕 触发扩容的阈值：

当负载因子超过预设值(java中默认为0.75,后续我们模拟实现哈希表也会采取这个阈值)时，哈希表自动扩容，以降低冲突概率。

📕 平衡时间与空间开销：

低负载因子：冲突少，操作效率高，但内存利用率低。
高负载因子：内存利用率高，但冲突频繁，操作效率下降。

⑥ 冲突的解决方案(开放寻址法)

1. 线性探测

📕 规则：

若当前的桶已经被占用，则顺序查询下一个桶(如 index = (index + 1) % size)，直到找到空桶。

📕 优点：实现简单，空间利用率高，缓存性能好(连续存储)。

📕 缺点：产生聚集现象(大量连续占用桶)，导致查找效率下降。

📕 适用场景：负载因子较低时。

2. 二次探测

📕 规则：

使用第二个哈希函数计算下一个空位置(如：index1 = (index0 + i ^ 2) % m)

📕 优点：冲突分布更均匀，减少聚集。

📕 缺点：装载因子不能太大，否则性能会急剧下降，容易发生二次聚集。

📕 适用场景：对性能要求高的场景。

⑦ 冲突的解决方案(链地址法)

又叫做"开散列法"，我们需要对传进的数据关键码通过散列函数计算出散列地址，将具有相同地址的关键码放入同一个子集合中，每一个子集合都是一个桶，每个桶中的元素都通过一个单链表进行连接，然后将每个链表的结点都存储在哈希表中。

三、哈希表的模拟实现

① 基本框架

在这里我们采用"开散列法"

所以我们需要用到链表结构，因此我们需要在基本框架中实现一个结点类

同时，我们还需要设定一个触发扩容的阈值(负载因子)，上面我们提到java中默认为0.75，所以我们这里也使用0.75作为触发扩容的阈值。

📖 代码示例：

public class HashBucket {public static class Node {public int key;public int val;public Node next;public Node(int key, int val) {this.key = key;this.val = val;}}//初始哈希表public Node[] elem = new Node[10];public int usedSize;//负载因子public static final double LOAD_FACTOR = 0.75;
}

② 插入元素

实现插入元素，我们需要考虑很多种情况，比如：如何避免哈希冲突，将结点插入链表的何处，在何时计算负载因子，如何进行扩容等。

这里我们一个个的进行讲解：

📕 如何避免哈希冲突：

我们采用"开散列法"，首先通过哈希函数寻找对应链表的index：

int index = key % elem.length;

然后判断当前index指向的链表中是否含有key，如果存在key，则修改结点的值为新的val。

📕 将结点插入链表何处：

如果不存在key，则将新节点插入链表(尾插和头插都可以，这里我们采取头插法)

📕 在何时计算负载因子：

当新元素加入后，计算此时的负载因子，如果超过阈值则扩容

📖 代码示例：

    //新增元素public void put(int key,int val){//1.通过哈希函数,找到对应链表的indexint index = key % elem.length;//2.判断当前的链表是否有keyNode cur = elem[index];while(cur != null){//3.找到key,修改改结点的valif(cur.key == key){cur.val = val;return;}cur = cur.next;}//4.如果没有key,则将新结点插入链表(这里采取头插法)Node newCur = new Node(key,val);newCur.next = elem[index];elem[index] = newCur;usedSize++;//5.计算当前的负载因子,如果超过则扩容if(getLoadFactor() >= LOAD_FACTOR){upsize();}}//计算当前负载因子public double getLoadFactor(){return usedSize * 1.0 / elem.length;}

③ 哈希表扩容

当为哈希表进行扩容时，并不是简单的将数组大小扩大一倍即可，因为可能会发生如下情况：

当扩容之后，其实14应该放在新的空间14内，而不是还处在4的位置，所以哈希表的扩容其实是一个(再次哈希)的过程，这个过程的时间复杂度是O(n)的，需要我们遍历所有元素，重新创建一个哈希表：

📖 代码示例：

    //哈希表扩容(再次哈希)public void upsize(){//1.创建新的哈希表Node[] newElem = new Node[elem.length * 2];for(int i = 0;i < elem.length;i++){Node cur = elem[i];while(cur != null){Node curN = cur.next;int index = cur.key % newElem.length;cur.next = newElem[index];newElem[index] = cur;cur = curN;}}elem = newElem;}

④ 获取元素

这个就很简单了，经过之前我们对各种数据结构的学习，对于大家来说肯定也是不必多说，只需要计算出对应链表的index并遍历链表求目标元素即可。

📖 代码示例：

    //通过key获取元素public int get(int key) {//找到key的对应下标int index = key % elem.length;Node cur = elem[index];//查找链表while (cur != null) {if (cur.key == key) {return cur.val;}cur = cur.next;}return -1;}

⑤ 测试

我们设定初始大小为10，扩容阈值为0.75，此时我们向哈希表中存入八个元素：

当存储到14时，14存在index = 4的链表中：

当存入第八个元素，也就是19的时候，就会触发扩容，此时我们的14应该从index = 4的链表，移动到新的index = 14的位置上：

四、自定义类使用哈希表

📖 People：

class People {public int id;public String name;public People(int id,String name) {this.id = id;this.name = name;}
}

有些时候，我们希望对自定义的一些类也是使用哈希表进行存储，但是有时会发生这样的情况：

明明姓名和id都相同，但却找不到对应的人，这是为什么呢？

这就取决于java内部哈希函数如何计算了：

📕 与 equals() 的一致性：若两个对象相等，则它们的哈希值必须相同。

📕 基于内存地址：默认返回对象内部地址的整数表示

📕 问题：不同对象即使内容相同，哈希值也不同

是的，所以找不到对应的对象是因为地址不同，那么如果想查找到对应的对象，我们就需要在自定义类中重写 hashCode() 和 equals() 方法

那么这篇关于哈希表(HashMap，HashSet)的文章到这里就结束啦，作者能力有限，如果有哪里说的不够清楚或者不够准确，还请各位在评论区多多指出，我也会虚心学习的，我们下次再见啦

查看全文

http://www.mrgr.cn/news/91423.html

【实用技巧】云服务器+FRP搭建自己的远程控制向日葵

Rust中的collections

2013年下半年软件设计师上午题考察知识点及其详细解释（附真题及答案解析）

Leetcode2080：区间内查询数字的频率

文档检测校正的重要性

Mycat中间件

【TI C2000】F28002x的系统延时、GPIO配置及SCI（UART）串口发送、接收

leetcode-495.提莫攻击

【16届蓝桥杯寒假刷题营】第2期DAY1I

视点坐标及鼠标交点坐标的信息显示（七）

基于SpringBoot的“高考志愿智能推荐系统”的设计与实现（源码+数据库+文档+PPT)

计算机视觉中图像的基础认知

Chrome多开终极形态解锁！「窗口管理工具+IP隔离插件

计算机视觉：卷积神经网络(CNN)基本概念(一)

【深度解析】图解Deepseek-V3模型架构-混合专家模型（MoE）

VMware Workstation 17.0 Pro创建虚拟机并安装Ubuntu22.04与ubuntu20.04（双版本同时存在）《包含小问题总结》

【数据结构基础_链表】

mysql 学习16 视图，存储过程，存储函数，触发器

SQL复习

一、Tree和Hash的区别

① 效率不同

② 适用场景不同

二、哈希表

① 什么是哈希表？

② 哈希冲突的概念

③ 哈希冲突的避免

④ 常见的哈希函数

⑤ 负载因子调节

1. 负载因子的定义

2. 负载因子的作用

⑥ 冲突的解决方案(开放寻址法)

1. 线性探测

2. 二次探测

⑦ 冲突的解决方案(链地址法)

三、哈希表的模拟实现

① 基本框架

② 插入元素

③ 哈希表扩容

④ 获取元素

⑤ 测试

四、自定义类使用哈希表

相关文章：