資料結構：哈夫曼樹和哈夫曼編碼

2021-05-20 22:50:56

哈夫曼樹是一種最優二叉樹，其定義是：給定n個權值作為n個葉子節點，構造一棵二叉樹，若樹的帶權路徑長度達到最小，這樣的樹就達到最優二叉樹，也就是哈夫曼樹，示例圖如下：

深入學習哈夫曼樹前，先了解一下基本概念，并以上面的哈夫曼樹圖為例

路徑：樹中一個結點到另一個結點之間的分支序列構成兩個結點間的路徑。

路徑長度：路徑中分支的數目，從根結點到第L層結點的路徑長度為L-1。例如100和80的路徑長度為1，50和30的路徑長度為2。

結點的權：樹中結點的數值，例如100，50那些。

結點帶權路徑長度：根結點到該結點之間的路徑長度與該結點的權的乘積。如結點20的路徑長度為3，該結點的帶權路徑長度為：3*20 = 60。

樹的帶權路徑長度：所有葉子結點的帶權路徑長度之和，記為WPL。例如上圖樹的WPL = 1100 + 280 +320 +310 = 350。

前面說到，哈夫曼樹是最優二叉樹，因為符合哈夫曼樹特點的樹的帶權路徑長度一定是最小的，我們将哈夫曼樹和普通的二叉樹做個比較，仍以上圖為例，上圖的哈夫曼樹是結點10，20，50，100組成的二叉樹，WPL是350，用這四個結點組成普通的二叉樹，結果如下：

不難計算，該二叉樹的WPL = 210 + 220 + 250 + 2100 = 360，明顯比哈夫曼樹大，當然二叉樹的組成結果不唯一，但WPL一定比哈夫曼樹大。是以說哈夫曼樹是最優二叉樹。

現在假定有n個權值，設為w1、w2、…、wn，将這n個權值看成是有n棵樹的森林，根據最小帶權路徑長度的原則，我們可以按照下面步驟來将森林構造成哈夫曼樹：

在森林中選出根結點的權值最小的兩棵樹進行合并，作為一棵新樹的左、右子樹，且新樹的根結點權值為其左、右子樹根結點權值之和；

從森林中删除選取的兩棵樹，并将新樹加入森林；

重複1、2步，直到森林中隻剩一棵樹為止，該樹即為所求得的哈夫曼樹。

以森林 (16，20，23，24，50) 為例，其構造步驟如下：

① 合并權值為16和20的樹，構成權值為36的新樹，森林變為（36，23，24，50）;

② 合并最小的兩棵樹23和24，組成新的樹47，這時森林變為（36，47，50）；

③ 合并36和47的樹作為權值83的新樹，并和50結合組成根節點權值為133的哈夫曼樹。

最終結果圖如下：

哈夫曼是一種無字首編碼，使用一種特别的方法為信号源中的每個符号設定二進制碼，解碼時不會混淆。其主要應用在資料壓縮，加密解密等場合。可以與哈夫曼樹進行結合生成。

給哈夫曼樹的根節點配置設定比特0，左子樹配置設定0，右字數配置設定1，一直遞歸下去，然後就可以得到符号的碼值了。假設我有A,B,C,D,E五個字元，出現的頻率（即權值）分别為5,4,3,2,1。

這樣結點對應的編碼為：16 - > 100，20 - > 101，23 - > 110，24 - > 111，50 - > 0

繼續閱讀