網站資訊稽核自動化、敏感詞過濾
功能目标
針對客戶(業務員、使用者)輸入的資訊、上傳的檔案(後期),實作自動稽核過濾,以達成盡可能少的人工參與!
通過程式中對文本對象進行檢測,有效降低内容違規風險。但是不能徹底解決内容違規。
我們會将大部分的違規内容,通過前端js、背景服務自動處理,并傳回處理結果;小部分違規内容,由人工參與處理,具體邏輯根據不同的業務場景提供不同的功能支援。
後期如需對圖檔、音視訊檔案進行内容檢測,需要對接第三方接口實作。
内容稽核自動化(半)
内容檢測
内容稽核方案
内容檢測方案
以上第三方支援直接針對網站内容進行檢測判斷。
文本内容檢測實施方案
1,違規詞彙檢測稽核。
2,第三方接口檢測稽核。
3,人工稽核。
圖檔、音視訊内容檢測方案
1,第三方接口檢測稽核。
2,人工稽核。
文本反垃圾彙總
反垃圾算法
文本資訊檢測流程(半)自動化
核心是通過前端結合後端程式,對資訊進行違規檢測,将大部分的違規資訊,通過應用程式自動判定處理,并傳回對應的處理結果。有效降低内容違規風險。
針對程式沒有檢測到的違規資訊,通過人工稽核的政策,下架或删除遺漏的違規資訊。
文本資訊檢測處理流程
資訊檢測流程概述:
1,使用者輸入文本資訊,前端通過敏感詞庫進行JS校驗判斷,如果不合法,傳回結果;合法,執行下一步;
2,服務端,通過敏感資料庫對資訊進行檢測判斷,如果不合法,傳回結果;合法,執行下一步;
3,調用第三方接口,檢測判斷,如果不合法,傳回結果;合法,儲存到資料庫中。【此步驟,前期可省略】
4,人工稽核,功能包括:巡查稽核、資訊稽核、禁言等操作。作為保全方案!(主要針對廣告、刷屏、添加重複資料的情況)
注意:【詞庫大,需要注意檢測方法執行時長,不影響業務的情況下,需控制在50ms以内;時長根據業務容錯而定】
補充
以上方案,對于文本内容檢測程式會增加程式響應時間(盡量控制在10ms以内),進而會進一步影響整個應用的吞吐量。
前期:代碼實作,優化方法執行邏輯,縮短程式執行時間。(測試方法執行時間)
後期可考慮應用叢集。
稽核結果處理方案
針對違規資訊處理方案,根據不同的場景,可考慮不同的落地設計方案:
1,彈框提示
2,接口資訊提示
3,資訊提示
4,頻繁發送,限制
5,資訊下架
6,賬号鎖定或禁用
圖檔、音視訊檢測稽核
前期主要針對文本資訊進行檢測處理。
後期如需對圖檔、音視訊檔案進行内容檢測,需要對接第三方接口實作。
文本資訊檢測算法
檢測方法,可參考--DFA算法/AC自動機,可有效縮短檢測方法時間。
- DFA全稱為:Deterministic Finite Automaton,即确定有窮自動機。
大緻是将敏感資料建構成樹的結構,完成搜尋命中,然後進行處理。
- AC自動機
多模式比對算法:在主串中查找多個模式串。(字典樹+kmp算法+失配指針)
(原理todo)
前端
針對客戶輸入的資訊,采用js檢測,判斷是否會命中敏感詞。
後端
服務端:通過已有的敏感詞資料表,查詢判斷。如果敏感詞較多,可使用redis進行緩存處理。
資料庫:敏感詞資料表(後期可背景維護新增)
功能設計
- 方案1,敏感詞打碼處理。
- 方案2,提示填寫的資料違規。