天天看点

GZIP压缩原理分析(22)——第五章 Deflate算法详解(五13) 动态哈夫曼编码分析(02) LZ77过程(01)

按照之前所述的LZ77规则将这句话压缩(回顾,这里使用的LZ77和原始LZ77有一定差别,只用“长度+距离”二元组,我们称其为“长度距离对儿”)。匹配串的查找是在查找缓冲区中进行的,如下图所示,我们分析匹配串查找过程,

GZIP压缩原理分析(22)——第五章 Deflate算法详解(五13) 动态哈夫曼编码分析(02) LZ77过程(01)

当前先行缓冲区第一个字节就是字符“r”,要做的就是找到以“r”为起始字符,在先行缓冲区中由连续字符组成的字符串在查找缓冲区中的最长匹配。更通俗的说就是,上图中蓝色部分从最左到右的连续的字符能够组成的所有字符串(必须以最左面的“r”打头),要在上图中的绿色部分找到完全相同的字符串,而且这个字符串必须是在绿色部分中能够找到的最长的字符串。例如,“re”在绿色部分中有,“re (这里有个空格)”在绿色部分中也有,但是后者比前者多一个字符,所以就选后者;当前先行缓冲区第一个字节是“r”,所以就不能用蓝色部分的字符串“many kinds”来找绿色部分的匹配。

现在摆在我们面前的问题有四个:第一,从“r”开始,先行缓冲区中的字符串由几个字符构成?有什么规定吗?还是说只要能找到匹配,不管几个字符都行?第二,如何高效的在查找缓冲区中找到匹配串?第三,如何找到最长匹配?第四,找不到匹配怎么办?

继续阅读