字符串模式匹配算法系列（一）：BF算法

算法背景：

BF（Brute Force）算法，是一种在字符串匹配的算法中，比较符合人类自然思维方式的方法，即对源字符串和目标字符串逐个字符地进行比较，直到在源字符串中找到完全与目标字符串匹配的子字符串，或者遍历到最后发现找不到能匹配的子字符串。算法思路很简单，但也很暴力。

算法原理：

假设源字符串为“非常地非常地非常地喜欢你”，我们想从中寻找目标字符串“非常地非常地喜欢”，则BF算法的过程可以表述如下：

第1轮：将源字符串和目标字符串对齐，并下标0开始逐个向后比较每个字符。结果发现双方的第1个字符都是“非”、第2个字符都是“常”、……，但到了第7个字符时发现不一致：源字符串为“非”、目标字符串为“喜”，因此这一轮匹配不成功。

第2轮：将目标字符串整体向后移动1个字符的位置（即将目标字符串的第1个字符与源字符串的第2个字符对齐），并开始逐个向后比较每个字符，结果发现两个字符串的第1个字符就不一致，因此这一轮匹配也不成功。

第3轮：类似地，将目标字符串整体向后移动1个字符的位置（即将目标字符串的第1个字符与源字符串的第3个字符对齐），并开始逐个向后比较，结果发现两个字符串的第1个字符就不一致，因此这一轮匹配也不成功。

第4轮：这一轮终于发现，目标字符串的每个字符都能和源字符串对应起来，匹配成功！因此算法结束并根据需要返回相应的信息（比如返回这一轮源字符串遍历起始点的位置下标3）

算法实现：

BF算法的python实现如下：

1 #!/usr/bin/env python
 2 #-*- coding: utf-8 -*-
 3 import sys
 4 import pdb
 5 
 6 reload(sys)
 7 sys.setdefaultencoding(\'utf-8\')
 8 
 9 
10 class BruteForce(object):
11     """BF算法
12     成员变量:
13         str_s: 源字符串
14         str_t: 目标字符串
15     """
16     def __init__(self, str_s, str_t):
17         self.str_s = str_s
18         self.str_t = str_t
19 
20     def run(self):
21         """完全匹配则返回源字符串匹配成功的起始点的下标，否则返回-1
22         """
23         base = 0 # 记录源字符串与目标字符串对齐的基准点
24         len_s = len(self.str_s)
25         len_t = len(self.str_t)
26 
27         while base + len_t <= len_s:
28             step = 0
29             while step < len_t:
30                 if str_t[step] == self.str_s[base + step]:
31                     # 当前字符相同，则继续比较下一个字符
32                     step += 1
33                     continue
34                 # 当前字符不相同，则结束次轮比较，更新base基准位置，启动下一轮比较
35                 base += 1
36                 break
37             # 完全匹配成功，算法结论，返回匹配成功的基准点位置下标
38             if step == len_t:
39                 return base
40         # 遍历了所有情况，最终匹配失败，返回-1
41         return -1
42 
43 
44 if __name__ == \'__main__\':
45     str_s = u"非常地非常地非常地喜欢你"
46     str_t = u"非常地非常地喜欢"
47     model = BruteForce(str_s, str_t)
48     print model.run()

复杂度分析：

时间复杂度：

假设源字符串长度为m，目标字符串长度为n，则：

最好情况下是第一轮就成功匹配，则时间复杂度为O(n)；

最坏情况下是遍历到最后才成功匹配，或者遍历到最后发现匹配不成功，则时间复杂度为O(n*(m-n+1))，一般实际使用时m >> n，所以可以认为趋近于O(m*n)；

空间复杂度：

由于不需要额外的存储空间，所以空间复杂度为O(1)

算法评估：

整个算法其实就循环执行如下两个步骤：

一、从每一轮的基准点开始比较两个字符串；

二、如发现不能完全匹配目标字符串，将目标字符串向后挪动一个字符的位置（即更新基准点）；

如果想优化算法性能，那就简单分析一下：

步骤一基本没有优化的空间：两个字符串比较就是需要从前向后逐个字符看是否匹配；

步骤二可能有优化的空间：每轮发现不匹配时，目标字符串只能向后挪动一个字符的距离，所以会想到能否多往后挪动几个字符的距离？这样不就减少了步骤一比较的轮次数，从而加快速度了吗？这基本就是KMP算法的思路，下一篇《KMP算法》会详细介绍。