前面介紹過一個過濾了些特殊字元的php程式,下面我們更新一下這個敏感詞過濾函數更強大了有了它再也不怕敏感詞中間加空格或者其他标點符号了。
隻要使用者可以發言的地方,就可能出現廣告或者其他敏感詞,是以必須加入敏感詞過濾機制來保持站點的”純潔”。
過濾機制:加入php關鍵字正則比對
//$str 為使用者資料
function wordFilter($str)
{
/*
擷取敏感詞清單
敏感詞的存儲方法:
1:存儲在txt檔案中(一般的方法)
2:存儲在緩存(比較好的方法)
我是存儲在memcachd中。
*/
$words = getSensitiveWords(); foreach ($words as $word)
{
$preg_letter = '/^[A-Za-z]+$/';
if (preg_match($preg_letter, $str))
{//比對中文
$str = strtolower($str);
$pattern_1 = '/([^A-Za-z]+' . $word . '[^A-Za-z]+)|([^A-Za-z]+' . $word . '\s+)|(\s+' . $word . '[^A-Za-z]+)|(^' . $word . '[^A-Za-z]+)|([^A-Za-z]+' . $word.'$)/';
//敏感詞兩邊不為空
if (preg_match($pattern_1, $str))
{
$flag = TRUE;
}
$pattern_2 = '/(^' . $word . '\s+)|(\s+' . $word . '\s+)|(\s+' . $word . '$)|(^' . $word . '$)/';
//敏感詞兩邊可以為空格
if (preg_match($pattern_2, $str))
{
$flag = TRUE;
}
}
else
{//比對英文字元串,大小寫不敏感
$pattern = '/\s*' . $word . '\s*/';
if (preg_match($pattern, $str))
{
$flag = TRUE;
}
}
}
}
存在問題:
如果單純隻加入關鍵字比對,使用者反過濾的方法五花八門,包括中間加入空格或者其他标點符号。
例子:
敏感詞:扣扣
使用者處理後:
扣 扣
扣,扣
扣@扣
扣1扣
這時候代碼的正則比對就可能比對不出來。
解決辦法:
$flag_arr=array('?','!','¥','(',')',':','‘','’','“','”','《','》',',','…','。','、','nbsp','】','【','~');
$content_filter=preg_replace('/\s/','',preg_replace("/[[:punct:]]/",'',strip_tags(html_entity_decode(str_replace($flag_arr,'',$content),ENT_QUOTES,'UTF-8'))));