当前位置: 首页 > news >正文

c++哈希

目录

一、哈希的概念

二、哈希冲突

(1)哈希函数

(2)闭散列和开放列

2.1闭散列

线性探测的实现

2.2开散列

开散列的扩容

开散列的实现

三、哈希表的模拟实现

模板参数的列表的改造

增加迭代器操作

实现代码


一、哈希的概念

        在我们之前学到的数据结构中,以顺序结构和平衡树形结构为主,其元素的关键码与其存储的位置没有直接对应的关系,因此在查找一个元素时,必须要经过多次的关键码的比对。顺序查找的时间复杂度为O(N),平衡树中即为树的高度,即log2N,搜索的效率取决于搜索过程中元素的比较次数。

        但是我们理想的结构是:可以不经过任何比较,一次直接从表中得到要搜索的元素。
如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立
一一映射的关系,那么在查找时通过该函数可以很快找到该元素。

当向该结构中:

        插入元素
根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放
        搜索元素
对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功

        该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)。

例如:数据集合{1,7,6,4,5,9};
哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。

用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快
但是也出现了一个问题:按照上述哈希方式,向集合中插入元素44,会出现什么问题?

二、哈希冲突

        对于两个数据元素的关键字不同,但是按照哈希映射的规则却会映射到同一个为止,即:不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。我们把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。发生哈希冲突该如何处理呢?

(1)哈希函数

引起哈希冲突的一个原因可能是:哈希函数设计不够合理。
哈希函数设计原则:
哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间;哈希函数计算出来的地址能均匀分布在整个空间中;哈希函数应该比较简单。

我们简单介绍一个常见的哈希函数
        1. 直接定址法--(常用)
取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B
优点:简单、均匀
缺点:需要事先知道关键字的分布情况
使用场景:适合查找比较小且连续的情况
面试题:字符串中第一个只出现一次字符
        2. 除留余数法--(常用)
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,
按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址
      

注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突

(2)闭散列和开放列

2.1闭散列

        闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。那如何寻找下一个空位置
呢?

1. 线性探测
        比如2.1中的场景,现在需要插入元素44,先通过哈希函数计算哈希地址,hashAddr为4,因此44理论上应该插在该位置,但是该位置已经放了值为4的元素,即发生哈希冲突。线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。

插入

        通过哈希函数获取待插入元素在哈希表中的位置如果该位置中没有元素则直接插入新元素,如果该位置中有元素发生哈希冲突,使用线性探测找到下一个空位置,插入新元素。

删除
        采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。

线性探测的实现

在闭散列中,需要给每一个空间都标记上三种不同的状态,用来方便后续的函数

#pragma once
#include <utility>//pair
#include<vector>
#include<string>namespace hmy
{//状态量enum Status{EMPTY,EXIST,DELETE};//节点的结构体template<class K,class V>struct HashData{pair<K, V> _kv;Status _s;};//仿函数,为了可以让每一种数据都能进行取模template<class K>struct HashFunc{size_t operator()(const K& key){return (size_t)key;}};template<>struct HashFunc<std::string>{size_t operator()(const std::string& key){size_t hash = 0;//把key里面的字符拿出来通过一定规律求出关键字for (auto e:key){hash *= 31;hash += e;}return hash;}};//hash表template<class K,class V,class Hash=HashFunc<K>>class HashTable{public://构造函数HashTable(){_tables.resize(10);}//查找HashData<K, V>* find(const K& key){Hash hf;size_t hashi = hf(key) % _tables.size();//当他不为空的时候,一直往后面找while (_tables[hashi]._s!=EMPTY){if (_tables[hashi].s==EXIST&&_tables[hashi].kv.first==key){return &_tables[hashi];}//一直往后面走,每一次走都取模一下,来重新定位(这个取模还防止了hashi走出去了)++hashi;hashi %= _tables.size();}return nullptr;}//删除bool erase(const K& key){HashData<K, V>* ret = find(key);if (ret){ret->_s = DELETE;--_n;return true}else{return false;}}//插入bool insert(const pair<K,V>& kv){//已经存在了,插入失败if (find(kv.first)!=nullptr){return false;}//插入之前判断是否需要扩容//负载因子大于0.7就扩容double loadfactor = _n / _tables.size();if (loadfactor>=0.7){size_t newsize = _tables.size() * 2;HashTable<K, V> newHT;newHT._tables.resize(newsize);//遍历旧表,把旧表的值插入给新表//因为扩容了,映射的关系发生了变化for (size_t i=0;i<_tables.size();i++){//存在才需要插入if (_tables[i]._s==EXIST){newHT.insert(_tables[i].kv);}}//交换新表和旧表的数组指针_tables.swap(newHT._tables);}Hash hf;size_t hashi = hf(kv.first) % _tables.size();//当状态!=exist(为空或者删除)的时候,就可以放入值,==exist就往后面找while (_tables[hashi]._s==EXIST){hashi++;//hashi走出了vector的size呢hash %= _tables.size();}//找到了状态为空或者删除的位置_tables[hashi]._kv = kv;_tables[hashi]._s = EXIST;++_n;return true;}private://一个数组,里面存放的全部都是HashData结构体vector<HashData<K, V>> _tables;//存储的节点(关键字)的个数size_t _n;};}

        这里的实现不是很困难,但是我们需要注意仿函数的用法:将不同类型的参数,转换成了对应的关键字,再通过关键字去找到哈希表中的映射地址

思考:哈希表什么情况下进行扩容?如何扩容?

线性探测优点:实现非常简单,
线性探测缺点:一旦发生哈希冲突,所有的冲突连在一起,容易产生数据“堆积”,即:不同
关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降
低。如何缓解呢?

2.2开散列

        开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地
址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。

开散列的扩容

        桶的个数是一定的,随着元素的不断插入,每个桶中的元素会不断增多,极端条件下,可能会导致一个桶中链表节点非常多,从而影响到哈希表的性能,因此在一定条件下需要对哈希表进行扩容,那么条件该怎么确定呢?开散列最好的情况是:每一个哈希桶职工刚好挂一个节点,再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数(平均下来每一个桶都只有一个元素)时,可以给哈希表扩容

开散列的实现

#pragma once
#include <utility>//pair
#include<vector>
#include<string>
using namespace std;template<class K>
struct HashFunc
{size_t operator()(const K& key){return (size_t)key;}
};template<>
struct HashFunc<std::string>
{size_t operator()(const std::string& key){size_t hash = 0;for (auto e:key){hash *= 31;hash += e;}return hash;}
};namespace hash_bucket
{template<class K,class V>struct HashNode{HashNode* _next;pair<K, V> _kv;//构造函数HashNode(const pair<K,V>& kv):_kv(kv),_next(nullptr){}};template<class K,class V,class Hash=HashFunc<K>>class HashTable{typedef HashNode<K, V> Node;public://构造函数HashTable(){_tables.resize(10);}//查找Node* find(const K& key){Hash hf;size_t hashi = hf(key)%_tables.size();Node* cur = _tables[hashi];while (cur!=nullptr){if (cur->_kv.first==key){return cur;}cur = cur->_next;}return nullptr}//插入bool insert(const pair<K,V>& kv){if (find(kv.first)){return false;}Hash hf;//负载因子size_t loadfactor = _n / _tables.size();if (loadfactor==1){std::vector<Node*> newTables;newTables.resize(_tables.size() * 2, nullptr);//遍历旧表,更改原表节点的位置for (size_t i=0;i<_tables.size();i++){Node* cur = _tables[i];while (cur!=nullptr){Node* next = cur->_next;//挪动数据到新表size_t hashi = hf(cur->_kv.first)%newTables.size();//头插cur->_next = newTables[hashi];newTables[hashi] = cur;cur = next;}_tables[i] = nullptr;}_tables.swap(newTables);}size_t hashi = hf(kv.first) % _tables.size();Node* newnode = new Node(kv);//头插newnode->_next = _tables[hashi];_tables[hashi] = newnode;++_n;return true;}//删除bool erase(const K& key){Hash hf;size_t hashi = hf(key) % _tables.size();Node* prev = nullptr;Node* cur = _tables[hashi];while (cur!=nullptr){if (cur->_kv.first==key){//如果要删除的位置就是第一个,没有prev了if (prev==nullptr){_tables[hashi] = cur->_next;}else{prev->_next = cur->_next;}delete cur;return true;}else{prev = cur;cur = cur->_next;}}return false;}private:std::vector<Node*> _tables;size_t _n = 0;};
}

三、哈希表的模拟实现

模板参数的列表的改造

// K:关键码类型
// V: 不同容器V的类型不同,如果是unordered_map,V代表一个键值对,如果是
unordered_set,V 为 K
// KeyOfValue: 因为V的类型不同,通过value取key的方式就不同,详细见
unordered_map/set的实现
// HF: 哈希函数仿函数对象类型,哈希函数使用除留余数法,需要将Key转换为整形数字才能
取模
template<class K, class V, class KeyOfValue, class HF = DefHashF<T> >
class HashBucket;

增加迭代器操作

// 为了实现简单,在哈希桶的迭代器类中需要用到hashBucket本身,
template<class K, class V, class KeyOfValue, class HF>
class HashBucket;

实现代码

代码框架

实现细节

#pragma once
#include <utility>//pair
#include<vector>
#include<string>
using namespace std;template<class K>
struct HashFunc
{size_t operator()(const K& key){return (size_t)key;}
};template<>
struct HashFunc<std::string>
{size_t operator()(const std::string& key){size_t hash = 0;for (auto e : key){hash *= 31;hash += e;}return hash;}
};namespace hash_bucket
{template<class T>struct HashNode{HashNode<T>* _next;T _data;//构造函数HashNode(const T& data):_data(data), _next(nullptr){}};//前置声明template<class K,class T,class KeyOfT,class Hash>class HashTable;//迭代器template<class K, class T, class Ref, class Ptr, class KeyOfT, class Hash>struct __HTIterator{typedef HashNode<T> Node;typedef __HTIterator<K, T, Ref, Ptr, KeyOfT, Hash> self;//成员变量Node* _node;const HashTable<K, T, KeyOfT, Hash>* _pht;size_t _hashi;//成员函数__HTIterator(Node* node, HashTable<K, T, KeyOfT, Hash>* pht,size_t hashi):_node(node),_pht(pht),_hashi(hashi){}self& operator++(){//当前桶还有节点,走到下一个节点if (_node->_next){_node = _node->_next;}//当前桶已经走完了,找下一个桶开始else{++_hashi;while (_hashi<_pht->_tables.size()){//桶不为空,从这里开始遍历if (_pht->_tables[_hashi]){_node = _pht->_tables[hasi];break;}++_hashi;}if (_hashi==_pht->_tables.size()){return nullptr;}}return *this;}Ref operator*(){return _node->_data;}Ptr operator->(){return &_node->_data;}bool operator!=(const self& s){return _node != s._node;}};//哈希表template<class K, class T,class KeyOfT,class Hash>class HashTable{typedef HashNode<T> Node;template<class K,class T,class Ref,class Ptr,class KeyOfT,class Hash>friend struct __HTIterator;public://迭代器相关函数typedef __HTIterator<K, T, T&, T*, KeyOfT, Hash> iterator;typedef __HTIterator<K, T, const T&, const T*, KeyOfT, Hash> const_iterator;iterator begin(){for (size_t i=0;i<_tables.size();i++){if (_tables[i]){return iterator(_tables[i],this,i);}}return end();}iterator end(){return iterator(nullptr,this,-1);}const_iterator begin()const {for (size_t i = 0;i < _tables.size();i++){if (_tables[i]){return const_iterator(_tables[i], this, i);}}return end();}const_iterator end()const{return const_iterator(nullptr, this, -1);}//构造函数HashTable(){_tables.resize(10);}//查找iterator find(const K& key){Hash hf;KeyOfT kot;size_t hashi = hf(key) % _tables.size();Node* cur = _tables[hashi];while (cur != nullptr){if (kot(cur->_data) == key){return iterator(cur,this,hashi);}cur = cur->_next;}return end();}//插入pair<iterator,bool> insert(const T& data){Hash hf;KeyOfT kot;//kot是取出data的第一个元素,但是第一个元素不一定是整形,加上hf构造关键码iterator it = find(hf(kot(data)));if (it!=end()){return make_pair(it, false);}//负载因子size_t loadfactor = _n / _tables.size();if (loadfactor == 1){std::vector<Node*> newTables;newTables.resize(_tables.size() * 2, nullptr);//遍历旧表,更改原表节点的位置for (size_t i = 0;i < _tables.size();i++){Node* cur = _tables[i];while (cur != nullptr){Node* next = cur->_next;//挪动数据到新表size_t hashi = hf(kot(cur->_data)) % newTables.size();//头插cur->_next = newTables[hashi];newTables[hashi] = cur;cur = next;}_tables[i] = nullptr;}_tables.swap(newTables);}size_t hashi = hf(kot(data)) % _tables.size();Node* newnode = new Node(kv);//头插newnode->_next = _tables[hashi];_tables[hashi] = newnode;++_n;return make_pair(iterator(newnode,this,hashi));}//删除bool erase(const K& key){Hash hf;size_t hashi = hf(key) % _tables.size();Node* prev = nullptr;Node* cur = _tables[hashi];while (cur != nullptr){if (kot(cur->_data) == key){//如果要删除的位置就是第一个,没有prev了if (prev == nullptr){_tables[hashi] = cur->_next;}else{prev->_next = cur->_next;}delete cur;return true;}else{prev = cur;cur = cur->_next;}}return false;}private:std::vector<Node*> _tables;size_t _n = 0;};
}namespace hash_bucket
{//在这里就传递了Hash,不用我们在hashtable里面传参了template<class K,class V, class Hash = HashFunc<K>>class unordered_map{struct MapKeyofT{const K& operator(const pair<K,V>& kv){return kv.first;}};public:typedef typename hash_bucket::HashTable<K, pair<const K,V>, MapKeyofT, Hash>::iterator iterator;iterator begin(){return _ht.begin();}iterator end(){return end();}pair<const_iterator, bool> insert(const pair<K,V>& kv){return _ht.insert(kv);}V& operator[](const K& key){pair<iterator, bool> ret = _ht.insert(make_pair(key,V()));//ret.first是iterator类型,因为iterator当做指针来用,所以用->return ret.first->second;}const V& operator[](const K& key)const {pair<iterator, bool> ret = _ht.insert(make_pair(key, V()));return ret.first->second;}iterator find(const K& key){return _ht.find(key);}bool erase(const K& key){return _ht.erase(key);}private:hash_bucket::HashTable<K, pair<const K,V>, MapKeyofT, Hash> _ht;};
}namespace hash_bucket
{//在这里就传递了Hash,不用我们在hashtable里面传参了template<class K,class Hash=HashFunc<K>>class unordered_set{struct SetKeyofT{const K& operator(const K& key){return key;}};public:typedef typename hash_bucket::HashTable<K, K, SetKeyofT, Hash>::const_iterator iterator;typedef typename hash_bucket::HashTable<K, K, SetKeyofT, Hash>::const_iterator const_iterator;const_iterator begin()const{return _ht.begin();}const_iterator end()const{return _ht.end();}pair<const_iterator, bool> insert(const K& key){auto ret = _ht.insert(key);return pair<const_iterator,bool>(const_iterator(ret.first._node,ret.first._pht,ret.first._hashi),ret.second)}iterator find(const K& key){return _ht.find(key);}bool erase(const K& key){return _ht.erase(key);}private:hash_bucket::HashTable<K, K, SetKeyofT, Hash> _ht;};
}

http://www.mrgr.cn/news/34898.html

相关文章:

  • PostgreSQL 开启密码验证插件
  • PostgreSQL 修改序列
  • 工作和学习遇到的技术问题
  • 标准C++ 字符串
  • 287. 寻找重复数(二分查找)
  • C# Winform--SerialPort串口通讯(ASCII码发送)
  • 算法:二维数组查找
  • UWB为什么是首选的室内定位技术
  • 【VMware】虚拟机安装
  • 基于Java+Jsp+SpringMVC漫威手办商城系统设计和实现
  • 蓝牙技术|详谈蓝牙信道探测技术,可实现厘米级精准定位
  • Google 提供基于AI的模糊测试框架
  • Axure-本地发布,局域网内用户访问
  • 如何使用MacPorts安装tesseract来进行简单的OCR识别
  • C++中stack类和queue类
  • 【Canvas与诗词】铁马冰河入梦来
  • lambda表达式详解
  • AI赋能千人千面营销:从数据采集到精准用户画像的全流程解析
  • 亚马逊云科技的成功秘诀:韧性与持续创新的经验之道
  • .NET 一款新的内网对抗综合利用工具
  • 循环遍历把多维数组中的某个值改成需要的值
  • wpf如何进行数据绑定与动态数据操作?
  • 【电商搜索】现代工业级电商搜索技术-Ha3搜索引擎平台简介
  • 管理方法(11)-- 阿米巴经营
  • 深度学习之表示学习 - 贪心逐层无监督预训练篇
  • eBPF系列:开发流程