天天看點

#yyds幹貨盤點#看動畫學算法之:hashtable

簡介

java中和hash相關并且常用的有兩個類hashTable和hashMap,兩個類的底層存儲都是數組,這個數組不是普通的數組,而是被稱為散清單的東西。

散清單是一種将鍵映射到值的資料結構。它用哈希函數來将鍵映射到小範圍的指數(一般為[0..哈希表大小-1])。同時需要提供沖突和對沖突的解決方案。

今天我們來學習一下散清單的特性和作用。

文末有代碼位址,歡迎下載下傳。

散清單的關鍵概念

散清單中比較關鍵的三個概念就是散清單,hash函數,和沖突解決。

散列是一種算法(通過散列函數),将大型可變長度資料集映射為固定長度的較小整數資料集。

散清單是一種資料結構,它使用哈希函數有效地将鍵映射到值,以便進行高效的搜尋/檢索,插入和/或删除。

散清單廣泛應用于多種計算機軟體中,特别是關聯數組,資料庫索引,緩存和集合。

散清單必須至少支援以下三種操作,并且盡可能高效:

搜尋(v) – 确定v是否存在于散清單中,

插入(v) – 将v插入散清單,

删除(v) – 從散清單中删除v。

因為使用了雜湊演算法,将長資料集映射成了短資料集,是以在插入的時候就可能産生沖突,根據沖突的解決辦法的不同又可以分為線性探測,二次探測,雙倍散列和分離連結等沖突解決方法。

數組和散清單

考慮這樣一個問題:找到給定的字元串中第一次重複出現的的字元。

怎麼解決這個問題呢?最簡單的辦法就是進行n次周遊,第一次周遊找出字元串中是否有和第一個字元相等的字元,第二次周遊找出字元串中是否有和第二個字元相等的字元,以此類推。

因為進行了n*n的周遊,是以時間複雜度是O(n²)。

有沒有簡單點的辦法呢?

考慮一下字元串中的字元集合其實是有限的,假如都是使用的ASCII字元,那麼我們可以建構一個256長度的數組一次周遊即可。

具體的做法就是周遊一個字元就将相對于的數組中的相應index中的值+1,當我們發現某個index的值已經是1的時候,就知道這個字元重複了。

數組的問題

那麼數組的實作有什麼問題呢?

數組的問題所在:

鍵的範圍必須很小。 如果我們有(非常)大範圍的話,記憶體使用量會(非常的)很大。

鍵必須密集,即鍵值中沒有太多空白。 否則數組中将包含太多的空單元。

我們可以使用散列函數來解決這個問題。

通過使用散列函數,我們可以:

将一些非整數鍵映射成整數鍵,

将大整數映射成較小的整數。

通過使用散列函數,我們可以有效的減少存儲數組的大小。

hash的問題

有利就有弊,雖然使用散列函數可以将大資料集映射成為小資料集,但是散列函數可能且很可能将不同的鍵映射到同一個整數槽中,即多對一映射而不是一對一映射。

尤其是在散清單的密度非常高的情況下,這種沖突會經常發生。

這裡介紹一個概念:影響哈希表的密度或負載因子α= N / M,其中N是鍵的數量,M是哈希表的大小。

其實這個沖突的機率要比我們想象的更大,舉一個生日悖論的問題:

一個班級裡面有多少個學生會使至少有兩人生日相同的機率大于 50%?

我們來計算一下上面的問題。

假設Q(n)是班級中n個人生日不同的機率。

Q(n)= 365/365×364/365×363/365×…×(365-n + 1)/ 365,即第一人的生日可以是365天中的任何一天,第二人的生日可以是除第一人的生日之外的任何365天,等等。

設P(n)為班級中 n 個人的相同生日的機率,則P(n)= 1-Q(n)。

計算可得,當n=23的時候P(23) = 0.507> 0.5(50%)。

也就是說當班級擁有23個人的時候,班級至少有兩個人的生日相同的機率已經超過了50%。 這個悖論告訴我們:個人覺得罕見的事情在集體中卻是常見的。

好了,回到我們的hash沖突,我們需要建構一個好的hash函數來盡量減少資料的沖突。

什麼是一個好的散列函數呢?

能夠快速計算,即其時間複雜度是O(1)。

盡可能使用最小容量的散清單,

盡可能均勻地将鍵分散到不同的基位址∈[0..M-1],

盡可能減少碰撞。

在讨論散列函數的實作之前,讓我們讨論理想的情況:完美的散列函數。

完美的散列函數是鍵和散列值之間的一對一映射,即根本不存在沖突。 當然這種情況是非常少見的,如果我們事先知道了散列函數中要存儲的key,還是可以辦到的。

好了,接下來我們讨論一下hash中解決沖突的幾種常見的方法。

線性探測

先給出線性探測的公式:i描述為i =(base + step * 1)%M,其中base是鍵v的散列值,即h(v),step是從1開始的線性探測步驟。

線性探測的探測序列可以正式描述如下:

h(v)//基位址

(h(v)+ 1 * 1)%M //第一個探測步驟,如果發生碰撞

(h(v)+ 2 * 1)%M //第二次探測步驟,如果仍有碰撞

(h(v)+ 3 * 1)%M //第三次探測步驟,如果仍有沖突

(h(v)+ k * 1)%M //第k個探測步驟等…

#yyds幹貨盤點#看動畫學算法之:hashtable

先看個例子,上面的數組中,我們的基數是9,數組中已經有1,3,5這三個元素。

現在我們需要插入10和12,根據計算10和12的hash值是1和3,但是1和3現在已經有資料了,那麼需要線性向前探測一位,最終插入在1和3的後面。

#yyds幹貨盤點#看動畫學算法之:hashtable

上面是删除10的例子,同樣的先計算10的hash值=1,然後判斷1的位置元素是不是10,不是10的話,向前線性探測。

看下線性探測的關鍵代碼:

//插入節點
    void insertNode(int key, int value)
    {
        HashNode temp = new HashNode(key, value);

        //擷取key的hashcode
        int hashIndex = hashCode(key);

        //find next free space
        while(hashNodes[hashIndex] != null && hashNodes[hashIndex].key != key
            && hashNodes[hashIndex].key != -1)
        {
            hashIndex++;
            hashIndex %= capacity;
        }
        //插入新節點,size+1
        if(hashNodes[hashIndex] == null || hashNodes[hashIndex].key == -1) {
            size++;
        }
        //将新節點插入數組
        hashNodes[hashIndex] = temp;
    }
      

如果我們把具有相同h(v)位址的連續存儲空間叫做clusters的話,線性探測有很大的可能會建立大型主clusters,這會增加搜尋(v)/插入(v)/删除(v)操作的運作時間。

為了解決這個問題,我們引入了二次探測。

二次探測

先給出二次探測的公式:i描述為i =(base + step * step)%M,其中base是鍵v的散列值,即h(v),step是從1開始的線性探測步驟。

h(v)//基位址

(h(v)+ 1 * 1)%M //第一個探測步驟,如果發生碰撞

(h(v)+ 2 * 2)%M //第2次探測步驟,如果仍有沖突

(h(v)+ 3 * 3)%M //第三次探測步驟,如果仍有沖突

(h(v)+ k * k)%M //第k個探測步驟等…

就是這樣,探針按照二次方跳轉,根據需要環繞哈希表。

#yyds幹貨盤點#看動畫學算法之:hashtable

看一個二次探測的例子,上面的例子中我們已經有38,3和18這三個元素了。現在要向裡面插入10和12。大家可以自行研究下探測的路徑。

#yyds幹貨盤點#看動畫學算法之:hashtable

再看一個二次探索删除節點的例子。

看下二次探測的關鍵代碼:

//插入節點
    void insertNode(int key, int value)
    {
        HashNode temp = new HashNode(key, value);

        //擷取key的hashcode
        int hashIndex = hashCode(key);

        //find next free space
        int i=1;
        while(hashNodes[hashIndex] != null && hashNodes[hashIndex].key != key
            && hashNodes[hashIndex].key != -1)
        {
            hashIndex=hashIndex+i*i;
            hashIndex %= capacity;
            i++;
        }

        //插入新節點,size+1
        if(hashNodes[hashIndex] == null || hashNodes[hashIndex].key == -1) {
            size++;
        }
        //将新節點插入數組
        hashNodes[hashIndex] = temp;
    }
      

在二次探測中,群集(clusters)沿着探測路徑形成,而不是像線性探測那樣圍繞基位址形成。 這些群集稱為次級群集(Secondary Clusters)。

由于在所有密鑰的探測中使用相同的模式,是以形成次級群集。

二次探測中的次級群集不如線性探測中的主群集那樣糟糕,因為理論上散列函數理論上應該首先将鍵分散到不同的基位址∈[0..M-1]中。

為了減少主要和次要clusters,我們引入了雙倍散列。

雙倍散列

先給出雙倍散列的公式:i描述為i =(base + step * h2(v))%M,其中base是鍵v的散列值,即h(v),step是從1開始的線性探測步驟。

h(v)//基位址

(h(v)+ 1 * h2(v))%M //第一個探測步驟,如果有碰撞

(h(v)+ 2 * h2(v))%M //第2次探測步驟,如果仍有沖突

(h(v)+ 3 * h2(v))%M //第三次探測步驟,如果仍有沖突

(h(v)+ k * h2(v))%M //第k個探測步驟等…

就是這樣,探測器根據第二個散列函數h2(v)的值跳轉,根據需要環繞散清單。

看下雙倍散列的關鍵代碼:

//插入節點
    void insertNode(int key, int value)
    {
        HashNode temp = new HashNode(key, value);

        //擷取key的hashcode
        int hashIndex = hash1(key);

        //find next free space
        int i=1;
        while(hashNodes[hashIndex] != null && hashNodes[hashIndex].key != key
            && hashNodes[hashIndex].key != -1)
        {
            hashIndex=hashIndex+i*hash2(key);
            hashIndex %= capacity;
            i++;
        }

        //插入新節點,size+1
        if(hashNodes[hashIndex] == null || hashNodes[hashIndex].key == -1) {
            size++;
        }
        //将新節點插入數組
        hashNodes[hashIndex] = temp;
    }
      

如果h2(v)= 1,則雙散列(Double Hashing)的工作方式與線性探測(Linear Probing)完全相同。 是以我們通常希望h2(v)> 1來避免主聚類。

如果h2(v)= 0,那麼Double Hashing将會不起作用。

通常對于整數鍵,h2(v)= M’ – v%M’其中M’是一個小于M的質數。這使得h2(v)∈[1..M’]。

二次散列函數的使用使得理論上難以産生主要或次要群集問題。

分離連結

分離連結法(SC)沖突解決技術很簡單。如果兩個鍵 a 和 b 都具有相同的散列值 i,那麼這兩個鍵會以連結清單的形式附加在要插入的位置。

因為鍵(keys)将被插入的地方完全依賴于散列函數本身,是以我們也稱分離連結法為封閉尋址沖突解決技術。

#yyds幹貨盤點#看動畫學算法之:hashtable

上面是分離連結插入的例子,向現有的hashMap中插入12和3這兩個元素。

#yyds幹貨盤點#看動畫學算法之:hashtable

上面是分離連結删除的例子,從連結中删除10這個元素。

看下分離連結的關鍵代碼:

//添加元素
    public void add(int key,int value)
    {

        int index=hashCode(key);
        HashNode head=hashNodes[index];
        HashNode toAdd=new HashNode(key,value);
        if(head==null)
        {
            hashNodes[index]= toAdd;
            size++;
        }
        else
        {
            while(head!=null)
            {
                if(head.key == key )
                {
                    head.value=value;
                    size++;
                    break;
                }
                head=head.next;
            }
            if(head==null)
            {
                head=hashNodes[index];
                toAdd.next=head;
                hashNodes[index]= toAdd;
                size++;
            }
        }
        //動态擴容
        if((1.0*size)/capacity>0.7)
        {
            HashNode[] tmp=hashNodes;
            hashNodes=new HashNode[capacity*2];
            capacity=2*capacity;
            for(HashNode headNode:tmp)
            {
                while(headNode!=null)
                {
                    add(headNode.key, headNode.value);
                    headNode=headNode.next;
                }
            }
        }
      

rehash

當負載因子α變高時,哈希表的性能會降低。 對于(标準)二次探測沖突解決方法,當哈希表的α> 0.5時,插入可能失敗。

如果發生這種情況,我們可以重新散列(rehash)。 我們用一個新的散列函數建構另一個大約兩倍的散清單。 我們周遊原始哈希表中的所有鍵,重新計算新的哈希值,然後将鍵值重新插入新的更大的哈希表中,最後删除較早的較小哈希表。

本文的代碼位址:

​​learn-algorithm​​

本文已收錄于 ​​http://www.flydean.com/14-algorithm-hashtable/​​