概述

讨論赫夫曼編碼問題，赫夫曼編碼的思想就是變長編碼。變長編碼就是讓字元表中出現機率高的字元的編碼長度盡可能小，而出現機率高的字元的編碼長度相對較長。然後還要遵循字首碼的要求，就是任意一個編碼都不是其他編碼的字首碼，這樣友善解碼。

思路及實作

對于下表中的字元和相應的出現機率，有對應圖中的編碼樹：

【算法導論】貪心算法之赫夫曼編碼概述思路及實作複雜度分析

可以比較容易的看出來，每個葉節點就代表一個字元，從根節點到葉節點走過的路徑拼接起來，就代表這個字元的編碼，比如f是1100，e是1101，而f和e是深度最深的節點也是機率最小的兩個節點。這也就是我們要求的赫夫曼編碼形式。這種最優的編碼形式，總是一顆滿的二叉樹。

算導上有大量的篇幅來論證用貪心算法，每次選擇機率最小的兩個節點來，可以完成赫夫曼編碼。這裡隻說實作方法。

由于每次都要找出出現機率最小的那個節點，彈出來，并删掉，是以我們可以使用最小優先隊列來做。注意一點是，編碼樹的葉子節點個數等于字元的個數，而内部節點個數則等于字元的個數減去一，是以求内部節點的循環隻需要n-1次即可，n為字元數。

小根堆操作：

#include <iostream>
#include <stack>

using namespace std;

#define MAX_INDEX 11

struct node {
	int freq;
	node* left;
	node* right;
	node() :
			freq(), left(NULL), right(NULL) {
	}
};

//數組從1号元素開始算起
int left_child(int i) {
	return i * 2;
}

int right_child(int i) {
	return i * 2 + 1;
}

int parent(int child) {
	return child / 2;
}

void swap(node* a, node* b) {
	node tmp = *a;
	*a = *b;
	*b = tmp;
}

void Print_Heap(node* a, int len) {
	for (int i = 1; i < len; i++) {
		cout << a[i].freq << ' ';
	}
	cout << endl;
}

/*
 * 将一個左右子樹都是小根堆的堆轉化成小根堆
 */
void Min_Heapify(node heap[], int root, int n) {
	int l = left_child(root);
	int r = right_child(root);

	int min = root;

	if (l <= n && heap[min].freq > heap[l].freq) {
		min = l;
	}

	if (r <= n && heap[min].freq > heap[r].freq) {
		min = r;
	}

	if (min != root) {
		swap(heap + root, heap + min);
		Min_Heapify(heap, min, n);
	}
}

/*
 * 建構一個小根堆
 */
void Build_min_heap(node heap[], int n) {
	int idx = n / 2 + 1;
	for (int i = idx; i >= 1; i--) {
		Min_Heapify(heap, i, n);
	}
}

最小優先隊列操作：

/*
 * 最小優先隊列要實作的操作：
 *
 * ①INSERT(S,x)
 *
 * ②MINIMUM(S)
 *
 * ③EXTRACT_MIN(S)
 *
 * ④DECREASE_KEY(S,x,k)
 *
 */

/*
 * 最小優先隊列
 */
struct min_priority_queue {
	node* min_heap;
	int len;

	min_priority_queue(node* mh, int l) :
			min_heap(mh), len(l) {
	}
};

/*
 * 傳回最小元素
 */
node* HEAP_MINIMUM(min_priority_queue* mpq) {
	if (mpq->len < 1) {
		cout << "min_priority_queue underflow" << endl;
	}
	return mpq->min_heap + 1;
}

/*
 * 彈出并移除最小的元素
 */
node* HEAP_EXTRACT_MIN(min_priority_queue* mpq) {

	if (mpq->len < 1) {
		cout << "min_priority_queue underflow" << endl;
	}

	//這裡必須要建立一個節點傳回去，如果直接傳回原節點，則會導緻後面insert的時候，左右孩子的指針指向的内容發生變化

	//建立一個節點
	node* min = new node();

	//複制最小節點的内容到建立節點，最後将建立的節點的指針傳回
	*min = *(mpq->min_heap + 1);

	swap(mpq->min_heap + 1, mpq->min_heap + mpq->len);

	//删除彈出的節點，防止記憶體洩露
	delete (mpq->min_heap + mpq->len);

	//将最後一個節點從堆中去掉
	(mpq->len)--;

	//重新維護小根堆的性質
	Min_Heapify(mpq->min_heap, 1, mpq->len);

	//傳回min
	return min;
}

/*
 * 把優先隊列中原來為x的元素的值，換成k，并維護最小堆的性質
 */
void HEAP_DECREASE_KEY(min_priority_queue* mpq, int i, node* n) {
	if (mpq->min_heap[i].freq < n->freq) {
		cout << "error:要替換的值比原值要大" << endl;
		return;
	}

	mpq->min_heap[i].freq = n->freq;

	while (i >= 1 && mpq->min_heap[i].freq < mpq->min_heap[parent(i)].freq) {
		swap(mpq->min_heap + i, mpq->min_heap + parent(i));
		i = parent(i);
	}
}

/*
 * 插入元素
 */
void HEAP_INSERT(min_priority_queue* mpq, node* n) {
	(mpq->len)++;
	*(mpq->min_heap + mpq->len) = *n;
	HEAP_DECREASE_KEY(mpq, mpq->len, n);
}

/*
 * 列印節點數組
 */
void PRINT_NODE_ARRAY(node* n_arr, int max_index) {
	for (int i = 1; i <= max_index; i++) {
		cout << n_arr[i].freq << ' ';
	}
	cout << endl;
}

赫夫曼編碼形成編碼樹：

//哈夫曼編碼樹
struct Huffman_Tree
{
    node *root;
    Huffman_Tree():root(NULL){}
};



/*
 * 赫夫曼編碼，傳回編碼樹的頭結點
 */
void HUFFMAN(min_priority_queue* mpq,Huffman_Tree* T) {
	int n = mpq->len;

	Build_min_heap(mpq->min_heap, n);

	node* tmp = NULL;

	//内部節點有n-1個，是以進行n-1次循環，每一個tmp都是一個内部節點，形成之後，再将tmp入堆，繼續循環
	for (int i = 1; i <= n - 1; i++) {
		tmp = new node();
		tmp->left = HEAP_EXTRACT_MIN(mpq);
		tmp->right = HEAP_EXTRACT_MIN(mpq);
		tmp->freq = tmp->left->freq + tmp->right->freq;
		HEAP_INSERT(mpq, tmp);
	}
//	return HEAP_EXTRACT_MIN(mpq);
	T->root=HEAP_EXTRACT_MIN(mpq);
}

/*
 * 中序周遊編碼樹
 */
void PRINT_CODED_TREE(node* root) {
	if (root != NULL) {
		PRINT_CODED_TREE(root->left);
		cout << root->freq << ' ';
		PRINT_CODED_TREE(root->right);
	}
}

/*
 * 删除編碼樹的節點
 */
void DELETE_CODED_TREE(node* root) {
	if (root != NULL) {
		DELETE_CODED_TREE(root->left);
		node* tmp = root->right;
		delete root;
		root = NULL;
		DELETE_CODED_TREE(tmp);
	}
}

int main() {

	int freq_arr[MAX_INDEX + 1] = { 0, 10, 4, 8, 20, 7, 6, 3, 11, 1, 5, 25 };

	node node_arr[MAX_INDEX + 1];

	for (int i = 0; i < 12; i++) {
		node_arr[i].freq = freq_arr[i];
	}

	//建立一個最小優先隊列對象，應用上面的數組
	min_priority_queue* mpq = new min_priority_queue(node_arr, MAX_INDEX);

	Huffman_Tree* T = new Huffman_Tree();

	HUFFMAN(mpq,T);

	PRINT_CODED_TREE(T->root); //10個内部節點和原來的11個葉子節點，一共21個節點

	DELETE_CODED_TREE(T->root);

	return 0;
}

複雜度分析

形成小根堆耗時O(n)，而在HUFFMAN(min_priority_queue* mpq,Huffman_Tree* T)中的n-1次for循環，每次for 都要做常數次維護小根堆性質的操作，每次的複雜度為O(lgn)，是以總共是：O(n+n*lgn)=O(nlgn)。

【算法導論】貪心算法之赫夫曼編碼概述思路及實作複雜度分析

概述

思路及實作

複雜度分析

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希

【算法導論】貪心算法之赫夫曼編碼 概述 思路及實作 複雜度分析

概述

思路及實作

複雜度分析

繼續閱讀

【算法導論】貪心算法之赫夫曼編碼概述思路及實作複雜度分析