哈希及哈希表的实现

简介: 哈希及哈希表的实现



一、哈希的引入

顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O(log_2 N),搜索的效率取决于搜索过程中元素的比较次数。

理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。

这种思想就是我们接下来要讲的哈希了。


二、概念

如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立

一一映射的关系,那么在查找时通过该函数可以很快找到该元素。

当向该结构中:

插入元素:根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。

搜索元素:对元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功。

该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)。

当有这些数据时:1,4,5,6,7,9。我们可以通过下图的方式去插入数据。

用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快。


三、哈希冲突

按照上面的方式,如果我们插入的是 1,2,32,222,7,9这几个数呢?

我们发现,如果按照哈希的思想去插入的话,2,32,22将会被放在同一个位置,这样就会引起一些麻烦。如果我去访问下标为2位置的数据,到底访问的哪一个呢?我们将这种现象称为哈希冲突。

不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。


四、哈希函数

引起哈希冲突的一个原因可能是:哈希函数设计不够合理。

常见的哈希函数

1、直接定址法

取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B。

优点:简单、均匀。

缺点:需要事先知道关键字的分布情况。

使用场景:适合查找比较小且连续的情况。

2、除留余数法

设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p (p<=m),将关键码转换成哈希地址。


五、哈希冲突的解决

1、闭散列

闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。

那么这个下一个位置怎么确定呢?我们有两种方法来帮助我们寻找“下一个”位置。

~ 线性探测

比如三中的情况,插入2之后,现在需要插入元素32,先通过哈希函数计算哈希地址为2,因此32理论上应该插在该位置,但是该位置已经放了值为2的元素,即发生哈希冲突。这时我们就需要去寻找该位置后面的空位置了。

线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。

如下图,32只能插入在3的位置了。

注:采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素
会影响其他元素的搜索。比如删除元素2,如果直接删除掉,32查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。

在有限的空间内,随着我们插入的数据越来越多,冲突的概率也越来越大,查找效率越来越低,所以闭散列的冲突表不可能让它满了,所以我们就引入了负载因子:

负载因子(载荷因子):等于表中的有效数据个数/表的大小,衡量表的满程度,在闭散列中负载因子不可能超过1(1代表满了)。一般情况下,负载因子一般在0.7左右。负载因子越小,冲突概率也越小,但是消耗的空间越大,负载因子越大,冲突概率越大,空间的利用率越高。

template<class K>
struct HashFunc
{
  size_t operator()(const K& key)
  {
    return (size_t)key;
  }
};
//特化
template<>
struct HashFunc<string>
{
  size_t operator()(const string& key)
  {
    size_t val = 0;
    for (auto ch : key)
    {
      val *= 131;
      val += ch;
    }
    return val;
  }
};
namespace closehash
{
enum State
{
  EMPTY,
  DELETE,
  EXIST
};
template<class K,class V>
struct HashData
{
  pair<K, V> _kv;
  State _state = EMPTY;
};
template<class K, class V, class Hash = HashFunc<K>>
class HashTable
{
public:
  bool insert(const pair<K, V>& kv)
  {
    if (Find(kv.first))
    {
      return false;
    }
    if (_tables.size() == 0 || 10 * _size / _tables.size() >= 7)
    {
      size_t newsize = _tables.size() == 0 ? 10 : _tables.size() * 2;
      HashTable<K, V, Hash> newHT;
      newHT._tables.resize(newsize);
      for (auto& e : _tables)
      {
        if (e._state == EXIST)
        {
          newHT.insert(e._kv);
        }
      }
      _tables.swap(newHT._tables);
    }
    Hash hash;
    size_t index = hash(kv.first) % _tables.size();
    //如果kv.first是string类型,那么就无法取模,因此我们要使用仿函数将其转换成整型
        //线性探测
        while (_tables[index]._state == EXIST)
        {
          index++;
          index %= _tables.size();
        }
        _tables[index]._kv = kv;
        _tables[index]._state = EXIST;
        _size++;
        return true;
      }
      HashData<K, V>* Find(const K& key)
      {
        if (_tables.size() == 0)
        {
          return nullptr;
        }
        Hash hash;
        size_t hashi = hash(key) % _tables.size();
        size_t start = hashi;
        while (_tables[hashi]._state != EMPTY)
        {
          if (_tables[hashi]._state != DELETE && _tables[hashi]._kv.first == key)
          {
            return &_tables[hashi];
          }
          hashi++;
          hashi %= _tables.size();
          if (hashi == start)
          {
            break;
          }
        }
        return nullptr;
      }
      bool Erase(const K& key)
      {
        HashData<K, V>* ret = Find(key);
        if (ret)
        {
          ret->_state = DELETE;
          _size--;
          return true;
        }
        else
          return false;
      }
    private:
      vector<HashData<K, V>> _tables;
      size_t _size = 0; //存储了多少个有效数据
    };

2、开散列

概念:开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。

那么是不是我们只需要开固定的空间,然后其他的数据就一直连接到对应的桶的后面,那样桶是不是太长了呢?

桶的个数是一定的,随着元素的不断插入,每个桶中元素的个数不断增多,极端情况下,可能会导致一个桶中链表节点非常多,会影响的哈希表的性能,因此在一定条件下需要对哈希表进行增容。

增容条件:每个哈希桶中刚好挂一个节点,再继续插入元素时,每一次都会发生哈希冲突,因此,在元素个数刚好等于桶的个数时,可以给哈希表增容。

template<class K,class V>
  struct HashNode
  {
    pair<K, V> _kv;
    HashNode<K, V>* _next;
    HashNode(const pair<K, V>& kv)
      :_kv(kv)
      , _next(nullptr)
    {}
  };
  template<class K, class V, class Hash = HashFunc<K>>
  class HashTable
  {
    typedef HashNode<K, V> Node;
  public:
    ~HashTable()
    {
      for (size_t i = 0; i < _tables.size(); i++)
      {
        Node* cur = _tables[i];
        while (cur)
        {
          Node* next = cur->_next;
          free(cur);
          cur = next;
        }
        _tables[i] = nullptr;
      }
    }
    bool insert(const pair<K, V>& kv)
    {
      //去重
      if (Find(kv.first))
      {
        return false;
      }
      Hash hash;
      //扩容
      if (_size == _tables.size())
      {
        size_t newsize = _tables.size() == 0 ? 10 : _tables.size() * 10;
        vector<Node*> newTables;
        newTables.resize(newsize, nullptr);
        //将旧表中结点移动映射到新表
        for (size_t i = 0; i < _tables.size(); i++)
        {
          Node* cur = _tables[i];
          while (cur)
          {
            Node* next = cur->_next;
            size_t hashi = hash(cur->_kv.first) % newTables.size();
            cur->_next = newTables[hashi];
            newTables[hashi] = cur;
            cur = next;
          }
          _tables[i] = nullptr;
        }
        _tables.swap(newTables);
      }
      size_t hashi = hash(kv.first) % _tables.size();
      Node* newnode = new Node(kv);
      newnode->_next = _tables[hashi];
      _tables[hashi] = newnode;
      _size++;
      return true;
    }
    Node* Find(const K& key)
    {
      if (_tables.size() == 0)
        return nullptr;
      Hash hash;
      size_t hashi = hash(key) % _tables.size();
      Node* cur = _tables[hashi];
      while (cur)
      {
        if (cur->_kv.first == key)
          return cur;
        else
          cur = cur->_next;
      }
      return nullptr;
    }
    bool erase(const K& key)
    {
      if (_tables.size() == 0)
      {
        return nullptr;
      }
      Hash hash;
      size_t hashi = hash(key) % _tables.size();
      Node* cur = _tables[hashi];
      Node* prev = nullptr;
      while (cur)
      {
        if (cur->_kv.first == key)
        {
          // 1、头删
          // 2、中间删
          if (prev == nullptr)
          {
            _tables[hashi] = cur->_next;
          }
          else
          {
            prev->_next = cur->_next;
          }
          delete cur;
          _size--;
          return true;
        }
        prev = cur;
        cur = cur->_next;
      }
      return false;
    }
  private:
    vector<Node*> _tables;
    size_t _size = 0;
  };
目录
相关文章
|
4月前
|
存储 算法 Java
【算法系列篇】哈希表
【算法系列篇】哈希表
|
3月前
|
存储
闭散列哈希表
闭散列哈希表
|
11月前
|
存储 算法 Serverless
|
11月前
|
存储 缓存 算法
一篇文章让你学会什么是哈希(上)
哈希概念 哈希在C++中有广泛的应用,它是一种用于快速查找和存储数据的数据结构和算法。以下是一些常见的哈希在C++中的应用: 哈希表(Hash Table):哈希表是一种高效的数据结构,用于存储键值对。在C++中,std::unordered_map 和 std::unordered_set 是标准库提供的哈希表实现。
|
存储 缓存 算法
趣味算法——探索哈希表的神秘世界
前言: 在编程世界中,数据存储和检索的效率常常是我们关注的重点。对于这个问题,哈希表提供了一个既高效又实用的解决方案。哈希表是一种通过哈希函数将键转化为数组索引,以实现快速查找的数据结构。在大多数情况下,哈希表能够在常数时间内完成查找,插入和删除操作,因此在许多应用场景中得到了广泛使用。
61 0
|
存储 算法 Java
哈希表(散列表)详解
什么是哈希表,以及如何使用哈希表
|
存储 算法 JavaScript
关于散列表(哈希表)我所知道的
关于散列表(哈希表)我所知道的
56 0
|
存储 Java Serverless
哈希表以及哈希冲突
哈希表以及哈希冲突
127 0
哈希表以及哈希冲突
|
存储 算法 C++
C++:哈希:闭散列哈希表
讲解了哈希的概念以及哈希函数,简单实现了闭散列哈希。闭散列哈希的重点之一是取模操作。
C++:哈希:闭散列哈希表
|
存储 数据库
第 9 章 哈希表
散列表(Hash table, 也叫哈希表) ,是根据关键码值(Key value)而直接进行访问的数据结构。
82 1