算法導論---------------散清單（hash table）

摘要：

　　本章介紹了散清單（hash table）的概念、散列函數的設計及散列沖突的處理。散清單類似與字典的目錄，查找的元素都有一個key與之對應，在實踐當中，散列技術的效率是很高的，合理的設計散函數和沖突處理方法，可以使得在散清單中查找一個元素的期望時間為O(1)。散清單是普通數組概念的推廣，在散清單中，不是直接把關鍵字用作數組下标，而是根據關鍵字通過散列函數計算出來的。書中介紹散清單非常注重推理和證明，看的時候迷迷糊糊的，再次證明了數學真的很重要。在STL中map容器的功能就是散清單的功能，但是map采用的是紅黑樹實作的，後面接着學習，關于map的操作可以參考：http://www.cplusplus.com/reference/map/。

1、直接尋址表

　　當關鍵字的的全域（範圍）U比較小的時，直接尋址是簡單有效的技術，一般可以采用數組實作直接尋址表，數組下标對應的就是關鍵字的值，即具有關鍵字k的元素被放在直接尋址表的槽k中。直接尋址表的字典操作實作比較簡單，直接操作數組即可以，隻需O(1)的時間。

2、散清單

　　直接尋址表的不足之處在于當關鍵字的範圍U很大時，在計算機記憶體容量的限制下，構造一個存儲|U|大小的表不太實際。當存儲在字典中的關鍵字集合K比所有可能的關鍵字域U要小的多時，散清單需要的存儲空間要比直接尋址表少的很多。散清單通過散列函數h計算出關鍵字k在槽的位置。散列函數h将關鍵字域U映射到散清單T[0....m-1]的槽位上。即h:U->{0,1...,m-1}。采用散列函數的目的在于縮小需要處理的小标範圍，進而降低了空間的開銷。

　　散清單存在的問題：兩個關鍵字可能映射到同一個槽上，即碰撞（collision）。需要找到有效的辦法來解決碰撞。

3、散列函數

　　好的散列函數的特點是每個關鍵字都等可能的散列到m個槽位上的任何一個中去，并與其他的關鍵字已被散列到哪一個槽位無關。多數散列函數都是假定關鍵字域為自然數N={0,1,2,....}，如果給的關鍵字不是自然數，則必須有一種方法将它們解釋為自然數。例如對關鍵字為字元串時，可以通過将字元串中每個字元的ASCII碼相加，轉換為自然數。書中介紹了三種設計方案：除法散列法、乘法散法和全域散列法。

（1）除法散列法

散列函數為：h(k)=k mod m

（2）乘法散列法

　　這個方法看的時候不是很明白，沒有搞清楚什麼意思，先将基本的思想記錄下來，日後好好消化一下。乘法散列法構造散列函數需要兩個步驟。第一步，用關鍵字k乘上常數A（0<A<1），并抽取kA的小數部分。然後，用m乘以這個值，再取結果的底。散列函數如下：h(k) = m(kA mod 1)。

（3）全域散列

　　給定一組散列函數H，每次進行散列時候從H中随機的選擇一個散列函數h，使得h獨立于要存儲的關鍵字。全域散列函數類的平均性能是比較好的。

4、碰撞處理

通常有兩類方法處理碰撞：開放尋址(Open Addressing)法和連結(Chaining)法。前者是将所有結點均存放在散清單T[0..m-1]中；後者通常是把散列到同一槽中的所有元素放在一個連結清單中，而将此連結清單的頭指針放在散清單T[0..m-1]中。

(1)開放尋址法

　　所有的元素都在散清單中，每一個表項或包含動态集合的一個元素，或包含NIL。這種方法中散清單可能被填滿，以緻于不能插入任何新的元素。在開放尋址法中，當要插入一個元素時，可以連續地檢查或探測散清單的各項，直到有一個空槽來放置待插入的關鍵字為止。有三種技術用于開放尋址法：線性探測、二次探測以及雙重探測。

<1>線性探測

　　給定一個普通的散列函數h'：U —>{0，1，.....，m-1}，線性探測方法采用的散列函數為：h(k,i) = (h'(k)+i)mod m，i=0,1,....,m-1　　

探測時從i=0開始，首先探查T[h'(k)]，然後依次探測T[h'(k)+1]，…，直到T[h'(k)+m-1]，此後又循環到T[0]，T[1]，…，直到探測到T[h'(k)-1]為止。探測過程終止于三種情況：

　 (1)若目前探測的單元為空，則表示查找失敗（若是插入則将key寫入其中）；

　 (2)若目前探測的單元中含有key，則查找成功，但對于插入意味着失敗；

　 (3)若探測到T[h'(k)-1]時仍未發現空單元也未找到key，則無論是查找還是插入均意味着失敗(此時表滿)。

線性探測方法較容易實作，但是存在一次群集問題，即連續被占用的槽的序列變的越來越長。采用例子進行說明線性探測過程，已知一組關鍵字為(26，36，41，38，44，15，68，12，6，51)，用除餘法構造散列函數，初始情況如下圖所示：

散列過程如下圖所示：

<2>二次探測

　　二次探測法的探查序列是：h(k,i) =(h'(k)+i*i)％m ,0≤i≤m-1 。初次的探測位置為T[h'(k)]，後序的探測位置在次基礎上加一個偏移量，該偏移量以二次的方式依賴于i。該方法的缺陷是不易探查到整個散列空間。

<3>雙重散列

　　該方法是開放尋址的最好方法之一，因為其産生的排列具有随機選擇的排列的許多特性。采用的散列函數為：h(k,i)=(h1(k)+ih2(k)) mod m。其中h1和h2為輔助散列函數。初始探測位置為T[h1(k)]，後續的探測位置在此基礎上加上偏移量h2(k)模m。

（2）連結法

　　将所有關鍵字為同義詞的結點連結在同一個連結清單中。若標明的散清單長度為m，則可将散清單定義為一個由m個頭指針組成的指針數組T[0..m-1]。凡是散列位址為i的結點，均插入到以T[i]為頭指針的單連結清單中。T中各分量的初值均應為空指針。在拉鍊法中，裝填因子α可以大于1，但一般均取α≤1。

　　舉例說明連結法的執行過程，設有一組關鍵字為(26，36，41，38，44，15，68，12，6，51)，用除餘法構造散列函數，初始情況如下圖所示：

最終結果如下圖所示：

5、字元串散列

　　通常都是将元素的key轉換為數字進行散列，如果key本身就是整數，那麼散列函數可以采用keymod tablesize（要保證tablesize是質數）。而在實際工作中經常用字元串作為關鍵字，例如身姓名、職位等等。這個時候需要設計一個好的散列函數程序處理關鍵字為字元串的元素。參考《資料結構與算法分析》第5章，有以下幾種處理方法：

方法1：将字元串的所有的字元的ASCII碼值進行相加，将所得和作為元素的關鍵字。設計的散列函數如下所示：

1 int hash(const string& key,int tablesize)
2 {
3     int hashVal = 0;
4     for(int i=0;i<key.length();i++)
5            hashVal += key[i];
6     return hashVal % tableSize;
7

　　此方法的缺點是不能有效的分布元素，例如假設關鍵字是有8個字母構成的字元串，散清單的長度為10007。字母最大的ASCII碼為127，按照方法1可得到關鍵字對應的最大數值為127×8=1016，也就是說通過散列函數映射時隻能映射到散清單的槽0-1016之間，這樣導緻大部分槽沒有用到，分布不均勻，進而效率低下。

方法2：假設關鍵字至少有三個字母構成，散列函數隻是取前三個字母進行散列。設計的散列函數如下所示：

1 int hash(const string& key,int tablesize)
2 {
3         //27 represents the number of letters plus the blank
4         return (key[0]+27*key[1]+729*key[2])%tablesize;
5

　　該方法隻是取字元串的前三個字元的ASCII碼進行散列，最大的得到的數值是2851，如果散列的長度為10007，那麼隻有28%的空間被用到，大部分空間沒有用到。是以如果散清單太大，就不太适用。

方法3：借助Horner's 規則，構造一個質數（通常是37）的多項式，（非常的巧妙，不知道為何是37）。計算公式為:key[keysize-i-1]37^i,0<=i<keysize求和。設計的散列函數如下所示：

1 int hash(const string & key,int tablesize)
 2 {
 3         int hashVal = 0;
 4         for(int i =0;i<key.length();i++)
 5             hashVal = 37*hashVal + key[i];
 6         hashVal %= tableSize;
 7         if(hashVal<0)  //計算的hashVal溢出
 8            hashVal += tableSize;
 9        return hashVal;
10

　　該方法存在的問題是如果字元串關鍵字比較長，散列函數的計算過程就變長，有可能導緻計算的hashVal溢出。針對這種情況可以采取字元串的部分字元進行計算，例如計算偶數或者奇數位的字元。

6、再散列（rehashing）

　　如果散清單滿了，再往散清單中插入新的元素時候就會失敗。這個時候可以通過建立另外一個散清單，使得新的散清單的長度是目前散清單的2倍多一些，重新計算各個元素的hash值，插入到新的散清單中。再散列的問題是在什麼時候進行最好，有三種情況可以判斷是否該進行再散列：

（1）當散清單将快要滿了，給定一個範圍，例如散列被中已經被用到了80%，這個時候進行再散列。

（2）當插入一個新元素失敗時候，進行再散列。

（3）根據裝載因子（存放n個元素的、具有m個槽位的散清單T，裝載因子α=n/m，即每個鍊子中的平均存儲的元素數目）進行判斷，當裝載因子達到一定的門檻值時候，進行在散列。

　　在采用連結法處理碰撞問題時，采用第三種方法進行在散列效率最好。

7、執行個體練習

　　看完書後，有一股想把hash表實作的沖動。在此設計的散清單針對的是關鍵字為字元串的元素，采用字元串散列函數方法3進行設計散列函數，采用連結方法處理碰撞，然後采用根據裝載因子（指定為1，同時将n個元素映射到一個連結清單上，即n==m時候）進行再散列。采用C++，借助vector和list，設計的hash表架構如下：

1 template <class T>
 2 class HashTable
 3 {
 4 public:
 5     HashTable(int size = 101);
 6     int insert(const T& x);
 7     int remove(const T& x);
 8     int contains(const T& x);
 9     void make_empty();
10     void display()const;
11 private:
12     vector<list<T> > lists;
13     int currentSize;//目前散清單中元素的個數
14     int hash(const string& key);
15     int myhash(const T& x);
16     void rehash();
17

實作的完整程式如下所示：

1 #include <iostream>
  2 #include <vector>
  3 #include <list>
  4 #include <string>
  5 #include <cstdlib>
  6 #include <cmath>
  7 #include <algorithm>
  8 using namespace std;
  9 
 10 int nextPrime(const int n);
 11 
 12 template <class T>
 13 class HashTable
 14 {
 15 public:
 16     HashTable(int size = 101);
 17     int insert(const T& x);
 18     int remove(const T& x);
 19     int contains(const T& x);
 20     void make_empty();
 21     void display()const;
 22 private:
 23     vector<list<T> > lists;
 24     int currentSize;
 25     int hash(const string& key);
 26     int myhash(const T& x);
 27     void rehash();
 28 };
 29 
 30 template <class T>
 31 HashTable<T>::HashTable(int size)
 32 {
 33     lists = vector<list<T> >(size);
 34     currentSize = 0;
 35 }
 36 
 37 template <class T>
 38 int HashTable<T>::hash(const string& key)
 39 {
 40     int hashVal = 0;
 41     int tableSize = lists.size();
 42     for(int i=0;i<key.length();i++)
 43         hashVal = 37*hashVal+key[i];
 44     hashVal %= tableSize;
 45     if(hashVal < 0)
 46         hashVal += tableSize;
 47     return hashVal;
 48 }
 49 
 50 template <class T>
 51 int HashTable<T>:: myhash(const T& x)
 52 {
 53     string key = x.getName();
 54     return hash(key);
 55 }
 56 template <class T>
 57 int HashTable<T>::insert(const T& x)
 58 {
 59     list<T> &whichlist = lists[myhash(x)];
 60     if(find(whichlist.begin(),whichlist.end(),x) != whichlist.end())
 61         return 0;
 62     whichlist.push_back(x);
 63     currentSize = currentSize + 1;
 64     if(currentSize > lists.size())
 65         rehash();
 66     return 1;
 67 }
 68 
 69 template <class T>
 70 int HashTable<T>::remove(const T& x)
 71 {
 72 
 73     typename std::list<T>::iterator iter;
 74     list<T> &whichlist = lists[myhash(x)];
 75     iter = find(whichlist.begin(),whichlist.end(),x);
 76     if( iter != whichlist.end())
 77     {
 78           whichlist.erase(iter);
 79           currentSize--;
 80           return 1;
 81     }
 82     return 0;
 83 }
 84 
 85 template <class T>
 86 int HashTable<T>::contains(const T& x)
 87 {
 88     list<T> whichlist;
 89     typename std::list<T>::iterator iter;
 90     whichlist = lists[myhash(x)];
 91     iter = find(whichlist.begin(),whichlist.end(),x);
 92     if( iter != whichlist.end())
 93           return 1;
 94     return 0;
 95 }
 96 
 97 template <class T>
 98 void HashTable<T>::make_empty()
 99 {
100     for(int i=0;i<lists.size();i++)
101         lists[i].clear();
102     currentSize = 0;
103     return 0;
104 }
105 
106 template <class T>
107 void HashTable<T>::rehash()
108 {
109     vector<list<T> > oldLists = lists;
110     lists.resize(nextPrime(2*lists.size()));
111     for(int i=0;i<lists.size();i++)
112         lists[i].clear();
113     currentSize = 0;
114     for(int i=0;i<oldLists.size();i++)
115     {
116         typename std::list<T>::iterator iter = oldLists[i].begin();
117         while(iter != oldLists[i].end())
118             insert(*iter++);
119     }
120 }
121 template <class T>
122 void HashTable<T>::display()const
123 {
124     for(int i=0;i<lists.size();i++)
125     {
126         cout<<i<<": ";
127         typename std::list<T>::const_iterator iter = lists[i].begin();
128         while(iter != lists[i].end())
129         {
130             cout<<*iter<<" ";
131             ++iter;
132         }
133         cout<<endl;
134     }
135 }
136 int nextPrime(const int n)
137 {
138     int ret,i;
139     ret = n;
140     while(1)
141     {
142         int flag = 1;
143         for(i=2;i<sqrt(ret);i++)
144             if(ret % i == 0)
145             {
146                 flag = 0;
147                 break;
148             }
149         if(flag == 1)
150             break;
151         else
152         {
153             ret = ret +1;
154             continue;
155         }
156     }
157     return ret;
158 }
159 
160 class Employee
161 {
162 public:
163     Employee(){}
164     Employee(const string n,int s=0):name(n),salary(s){ }
165     const string & getName()const  { return name; }
166     bool operator == (const Employee &rhs) const
167     {
168         return getName() == rhs.getName();
169     }
170     bool operator != (const Employee &rhs) const
171     {
172         return !(*this == rhs);
173     }
174     friend ostream& operator <<(ostream& out,const Employee& e)
175     {
176         out<<"("<<e.name<<","<<e.salary<<") ";
177         return out;
178     }
179 private:
180     string name;
181     int salary;
182 };
183 
184 int main()
185 {
186     Employee e1("Tom",6000);
187     Employee e2("Anker",7000);
188     Employee e3("Jermey",8000);
189     Employee e4("Lucy",7500);
190     HashTable<Employee> emp_table(13);
191 
192     emp_table.insert(e1);
193     emp_table.insert(e2);
194     emp_table.insert(e3);
195     emp_table.insert(e4);
196 
197     cout<<"Hash table is: "<<endl;
198     emp_table.display();
199     if(emp_table.contains(e4) == 1)
200         cout<<"Tom is exist in hash table"<<endl;
201     if(emp_table.remove(e1) == 1)
202           cout<<"Removing Tom form the hash table successfully"<<endl;
203     if(emp_table.contains(e1) == 1)
204         cout<<"Tom is exist in hash table"<<endl;
205     else
206         cout<<"Tom is not exist in hash table"<<endl;
207     //emp_table.display();
208     exit(0);
209

程式測試結果如下所示：

算法導論---------------散清單（hash table）

繼續閱讀

淺談MFC CSting類拼接效率

C和java中關于字元串與字元數組的定義和轉化

Java：String類字元串與數組之間的轉換

Java中 byte[] 數組與 String 字元串的轉化

算法導論讀書筆記（6）堆排序第二部分排序和順序統計量

算法導論---堆排序Java代碼實作

[算法導論]堆排序堆參考

算法導論---堆排序

算法導論之堆排序相關

算法導論 - 堆排序堆排序

算法導論的C實作——堆排序堆最大堆維護最大堆建堆排序

算法導論第6章堆排序算法導論第6章堆排序

【算法導論】堆排序一、數組轉換成堆二、如何進行堆排序三、堆排序過程四、堆排序時間複雜度

回文樹學習小結

D5|哈希表，善用資料結構

查找檔案中的字元串