天天看點

資料結構:哈夫曼樹和哈夫曼編碼

哈夫曼樹是一種最優二叉樹,其定義是:給定n個權值作為n個葉子節點,構造一棵二叉樹,若樹的帶權路徑長度達到最小,這樣的樹就達到最優二叉樹,也就是哈夫曼樹,示例圖如下:

資料結構:哈夫曼樹和哈夫曼編碼

深入學習哈夫曼樹前,先了解一下基本概念,并以上面的哈夫曼樹圖為例

路徑:樹中一個結點到另一個結點之間的分支序列構成兩個結點間的路徑。

路徑長度:路徑中分支的數目,從根結點到第L層結點的路徑長度為L-1。例如100和80的路徑長度為1,50和30的路徑長度為2。

結點的權:樹中結點的數值,例如100,50那些。

結點帶權路徑長度:根結點到該結點之間的路徑長度與該結點的權的乘積。 如結點20的路徑長度為3,該結點的帶權路徑長度為:3*20 = 60。

樹的帶權路徑長度:所有葉子結點的帶權路徑長度之和,記為WPL。例如上圖樹的WPL = 1100 + 280 +320 +310 = 350。

前面說到,哈夫曼樹是最優二叉樹,因為符合哈夫曼樹特點的樹的帶權路徑長度一定是最小的,我們将哈夫曼樹和普通的二叉樹做個比較,仍以上圖為例,上圖的哈夫曼樹是結點10,20,50,100組成的二叉樹,WPL是350,用這四個結點組成普通的二叉樹,結果如下:

資料結構:哈夫曼樹和哈夫曼編碼

不難計算,該二叉樹的WPL = 210 + 220 + 250 + 2100 = 360,明顯比哈夫曼樹大,當然二叉樹的組成結果不唯一,但WPL一定比哈夫曼樹大。是以說哈夫曼樹是最優二叉樹。

現在假定有n個權值,設為w1、w2、…、wn,将這n個權值看成是有n棵樹的森林,根據最小帶權路徑長度的原則,我們可以按照下面步驟來将森林構造成哈夫曼樹:

在森林中選出根結點的權值最小的兩棵樹進行合并,作為一棵新樹的左、右子樹,且新樹的根結點權值為其左、右子樹根結點權值之和;

從森林中删除選取的兩棵樹,并将新樹加入森林;

重複1、2步,直到森林中隻剩一棵樹為止,該樹即為所求得的哈夫曼樹。

以森林 (16,20,23,24,50) 為例,其構造步驟如下:

① 合并權值為16和20的樹,構成權值為36的新樹,森林變為(36,23,24,50);

② 合并最小的兩棵樹23和24,組成新的樹47,這時森林變為(36,47,50);

③ 合并36和47的樹作為權值83的新樹,并和50結合組成根節點權值為133的哈夫曼樹。

最終結果圖如下:

資料結構:哈夫曼樹和哈夫曼編碼

哈夫曼是一種無字首編碼,使用一種特别的方法為信号源中的每個符号設定二進制碼,解碼時不會混淆。其主要應用在資料壓縮,加密解密等場合。可以與哈夫曼樹進行結合生成。

給哈夫曼樹的根節點配置設定比特0,左子樹配置設定0,右字數配置設定1,一直遞歸下去,然後就可以得到符号的碼值了。假設我有A,B,C,D,E五個字元,出現的頻率(即權值)分别為5,4,3,2,1。

資料結構:哈夫曼樹和哈夫曼編碼

這樣結點對應的編碼為:16 - > 100,20 - > 101,23 - > 110,24 - > 111,50 - > 0

繼續閱讀