一,什么是哈夫曼树
什么是哈夫曼树呢?
哈夫曼树是一种带权路径长度最短的二叉树,也称为最优二叉树。下面用一幅图来说明。
它们的带权路径长度分别为:
图a: WPL=5*2+7*2+2*2+13*2=54
图b: WPL=5*3+2*3+7*2+13*1=48
可见,图b的带权路径长度较小,我们可以证明图b就是哈夫曼树(也称为最优二叉树)。
二,如何构建哈夫曼树
一般可以按下面步骤构建:
1,将所有左,右子树都为空的作为根节点。
2,在森林中选出两棵根节点的权值最小的树作为一棵新树的左,右子树,且置新树的附加根节点的权值为其左,右子树上根节点的权值之和。注意,左子树的权值应小于右子树的权值。
3,从森林中删除这两棵树,同时把新树加入到森林中。
4,重复2,3步骤,直到森林中只有一棵树为止,此树便是哈夫曼树。
下面是构建哈夫曼树的图解过程:
三,哈夫曼编码
利用哈夫曼树求得的用于通信的二进制编码称为哈夫曼编码。树中从根到每个叶子节点都有一条路径,对路径上的各分支约定指向左子树的分支表示”0”码,指向右子树的分支表示“1”码,取每条路径上的“0”或“1”的序列作为各个叶子节点对应的字符编码,即是哈夫曼编码。
就拿上图例子来说:
A,B,C,D对应的哈夫曼编码分别为:111,10,110,0
用图说明如下:
记住,设计电文总长最短的二进制前缀编码,就是以n个字符出现的频率作为权构造一棵哈夫曼树,由哈夫曼树求得的编码就是哈夫曼编码。
#include<stdlib.h> #include<stdio.h> #include<string.h> #define BEGIN -1 /** * 哈夫曼树结点 */ typedef struct { int weight; int parent, left, right; }HTNode, *HuffmanTree; typedef char ** HuffmanTable; //动态分配存储各个字符哈夫曼编码的表 /** * 从树集中选取parent = 0,weight最小的两个结点,其下标存入s1,12 */ void select_min_two(HuffmanTree htree, int end, int *s1, int *s2) { int min1, min2; int i = 1; while(htree[i].parent != 0 && i<=end) i++; min1 = htree[i].weight; *s1 = i; i++; while(htree[i].parent != 0 && i<=end) i++; if(htree[i].weight < min1){ min2 = min1; *s2 = *s1; min1 = htree[i].weight; *s1 = i; }else{ min2 = htree[i].weight; *s2 = i; } for(int j=i+1; j <= end; j++) { if(htree[j].parent != 0) continue; if(htree[j].weight < min1){ min2 = min1; min1 = htree[j].weight; *s2 = *s1; *s1 = j; }else if(htree[j].weight >= min1 && htree[j].weight < min2){ min2 = htree[j].weight; *s2 = j; } } } /** * htree: 建立之后的哈夫曼树 * htable: 建立之后的哈夫曼编码表 * w: n个字符的权值数组 * n: 待编码字符的个数 */ void huffman_coding(HuffmanTree *htree, HuffmanTable *htable, int *w, int n) { if(n<=1) return; // 如果只有一个编码就相当于0 int m = 2*n-1; // 哈夫曼树总节点数,n就是叶子结点 *htree = (HuffmanTree) malloc((m+1) * sizeof(HTNode)); // 0号位置不用 HuffmanTree p = *htree; // 初始化整棵树 for(int i=1; i<=n; i++) { (p+i)->weight = *(w+i-1); (p+i)->parent = 0; (p+i)->left = 0; (p+i)->right = 0; } for(int i=n+1; i<=m; i++) { (p+i)->weight = 0; (p+i)->parent = 0; (p+i)->left = 0; (p+i)->right = 0; } // 建立哈夫曼树 for(int i=n+1; i<=m; i++) { int s1, s2; select_min_two(*htree, i-1, &s1, &s2); (*htree)[s1].parent = (*htree)[s2].parent = i; (*htree)[i].left = s1; (*htree)[i].right = s2; (*htree)[i].weight = (*htree)[s1].weight + (*htree)[s2].weight; } // 生成哈夫曼表,从叶子到根求每个字符的哈夫曼编码 *htable = (HuffmanTable) malloc((n+1) * sizeof(char *)); // 0号元素不用,相当于保存n个C字符串 char *eachCode = (char *)malloc(n*sizeof(char)); // 每个字符对应的编码字符串 eachCode[n-1] = '\0'; for(int i=1; i<=n; i++) { int start = n-1; // 因为是逆向编码,所以要从后面填充编码字符串 int current = i; int j = (*htree)[i].parent; // 一直寻找到根结点 while(j != 0){ // 如果改结点是父亲结点的左孩子则对应路径编码为0,否则为右孩子编码为1 if((*htree)[j].left == current) eachCode[--start] = '0'; else eachCode[--start] = '1'; current = j; j = (*htree)[j].parent; } // 为第i个字符编码分配空间, n-start 表示字符数 (*htable)[i] = (char *)malloc((n-start)*sizeof(char)); strcpy((*htable)[i], &eachCode[start]); } free(eachCode); } /** * 打印Huffman树 */ void print_huffman_tree(HuffmanTree htree, int n) { printf("Huffman tree: \n"); int m = 2*n-1; for(int i=1; i<=m; i++) printf("node_%d, weight = %d, parent = %d, left = %d, right = %d\n", i, htree[i].weight, htree[i].parent, htree[i].left, htree[i].right); } /** * 打印Huffman编码表中所有编码 */ void print_all_huffman_code(HuffmanTable htable, int n) { printf("Huffman code table: \n"); for(int i=1; i<=n; i++) printf("%d code = %s\n", i, htable[i]); } int main(void) { int w[5] = {2, 8, 7, 6, 5}; int n=5; HuffmanTree htree; HuffmanTable htable; huffman_coding(&htree, &htable, w, n); print_huffman_tree(htree, n); print_all_huffman_code(htable, n); return 0; }