天天看點

敏感詞過濾、網站資訊安全檢測自動化設計方案

網站資訊稽核自動化、敏感詞過濾

功能目标

針對客戶(業務員、使用者)輸入的資訊、上傳的檔案(後期),實作自動稽核過濾,以達成盡可能少的人工參與!

通過程式中對文本對象進行檢測,有效降低内容違規風險。但是不能徹底解決内容違規。

我們會将大部分的違規内容,通過前端js、背景服務自動處理,并傳回處理結果;小部分違規内容,由人工參與處理,具體邏輯根據不同的業務場景提供不同的功能支援。

後期如需對圖檔、音視訊檔案進行内容檢測,需要對接第三方接口實作。

内容稽核自動化(半)

敏感詞過濾、網站資訊安全檢測自動化設計方案

内容檢測

内容稽核方案

敏感詞過濾、網站資訊安全檢測自動化設計方案

内容檢測方案

以上第三方支援直接針對網站内容進行檢測判斷。

文本内容檢測實施方案

1,違規詞彙檢測稽核。

2,第三方接口檢測稽核。

3,人工稽核。

圖檔、音視訊内容檢測方案

1,第三方接口檢測稽核。

2,人工稽核。

文本反垃圾彙總

敏感詞過濾、網站資訊安全檢測自動化設計方案

反垃圾算法

文本資訊檢測流程(半)自動化

核心是通過前端結合後端程式,對資訊進行違規檢測,将大部分的違規資訊,通過應用程式自動判定處理,并傳回對應的處理結果。有效降低内容違規風險。

針對程式沒有檢測到的違規資訊,通過人工稽核的政策,下架或删除遺漏的違規資訊。

敏感詞過濾、網站資訊安全檢測自動化設計方案

文本資訊檢測處理流程

資訊檢測流程概述:

1,使用者輸入文本資訊,前端通過敏感詞庫進行JS校驗判斷,如果不合法,傳回結果;合法,執行下一步;

2,服務端,通過敏感資料庫對資訊進行檢測判斷,如果不合法,傳回結果;合法,執行下一步;

3,調用第三方接口,檢測判斷,如果不合法,傳回結果;合法,儲存到資料庫中。【此步驟,前期可省略】

4,人工稽核,功能包括:巡查稽核、資訊稽核、禁言等操作。作為保全方案!(主要針對廣告、刷屏、添加重複資料的情況)

注意:【詞庫大,需要注意檢測方法執行時長,不影響業務的情況下,需控制在50ms以内;時長根據業務容錯而定】

補充

以上方案,對于文本内容檢測程式會增加程式響應時間(盡量控制在10ms以内),進而會進一步影響整個應用的吞吐量。

前期:代碼實作,優化方法執行邏輯,縮短程式執行時間。(測試方法執行時間)

後期可考慮應用叢集。

稽核結果處理方案

針對違規資訊處理方案,根據不同的場景,可考慮不同的落地設計方案:

1,彈框提示

2,接口資訊提示

3,資訊提示

4,頻繁發送,限制

5,資訊下架

6,賬号鎖定或禁用

圖檔、音視訊檢測稽核

前期主要針對文本資訊進行檢測處理。

後期如需對圖檔、音視訊檔案進行内容檢測,需要對接第三方接口實作。

文本資訊檢測算法

檢測方法,可參考--DFA算法/AC自動機,可有效縮短檢測方法時間。

  • DFA全稱為:Deterministic Finite Automaton,即确定有窮自動機。

大緻是将敏感資料建構成樹的結構,完成搜尋命中,然後進行處理。

  • AC自動機

多模式比對算法:在主串中查找多個模式串。(字典樹+kmp算法+失配指針)

(原理todo)

前端

針對客戶輸入的資訊,采用js檢測,判斷是否會命中敏感詞。

後端

服務端:通過已有的敏感詞資料表,查詢判斷。如果敏感詞較多,可使用redis進行緩存處理。

資料庫:敏感詞資料表(後期可背景維護新增)

功能設計

  • 方案1,敏感詞打碼處理。
  • 方案2,提示填寫的資料違規。

視訊檢測

繼續閱讀