敏感詞過濾、網站資訊安全檢測自動化設計方案

網站資訊稽核自動化、敏感詞過濾

功能目标

針對客戶（業務員、使用者）輸入的資訊、上傳的檔案（後期），實作自動稽核過濾，以達成盡可能少的人工參與！

通過程式中對文本對象進行檢測，有效降低内容違規風險。但是不能徹底解決内容違規。

我們會将大部分的違規内容，通過前端js、背景服務自動處理，并傳回處理結果；小部分違規内容，由人工參與處理，具體邏輯根據不同的業務場景提供不同的功能支援。

後期如需對圖檔、音視訊檔案進行内容檢測，需要對接第三方接口實作。

内容稽核自動化（半）

内容檢測

内容稽核方案

内容檢測方案

以上第三方支援直接針對網站内容進行檢測判斷。

文本内容檢測實施方案

1，違規詞彙檢測稽核。

2，第三方接口檢測稽核。

3，人工稽核。

圖檔、音視訊内容檢測方案

1，第三方接口檢測稽核。

2，人工稽核。

文本反垃圾彙總

反垃圾算法

文本資訊檢測流程（半）自動化

核心是通過前端結合後端程式，對資訊進行違規檢測，将大部分的違規資訊，通過應用程式自動判定處理，并傳回對應的處理結果。有效降低内容違規風險。

針對程式沒有檢測到的違規資訊，通過人工稽核的政策，下架或删除遺漏的違規資訊。

文本資訊檢測處理流程

資訊檢測流程概述：

1，使用者輸入文本資訊，前端通過敏感詞庫進行JS校驗判斷，如果不合法，傳回結果；合法，執行下一步；

2，服務端，通過敏感資料庫對資訊進行檢測判斷，如果不合法，傳回結果；合法，執行下一步；

3，調用第三方接口，檢測判斷，如果不合法，傳回結果；合法，儲存到資料庫中。【此步驟，前期可省略】

4，人工稽核，功能包括：巡查稽核、資訊稽核、禁言等操作。作為保全方案！（主要針對廣告、刷屏、添加重複資料的情況）

注意：【詞庫大，需要注意檢測方法執行時長，不影響業務的情況下，需控制在50ms以内；時長根據業務容錯而定】

補充

以上方案，對于文本内容檢測程式會增加程式響應時間（盡量控制在10ms以内），進而會進一步影響整個應用的吞吐量。

前期：代碼實作，優化方法執行邏輯，縮短程式執行時間。（測試方法執行時間）

後期可考慮應用叢集。

稽核結果處理方案

針對違規資訊處理方案，根據不同的場景，可考慮不同的落地設計方案：

1，彈框提示

2，接口資訊提示

3，資訊提示

4，頻繁發送，限制

5，資訊下架

6，賬号鎖定或禁用

圖檔、音視訊檢測稽核

前期主要針對文本資訊進行檢測處理。

後期如需對圖檔、音視訊檔案進行内容檢測，需要對接第三方接口實作。

文本資訊檢測算法

檢測方法，可參考--DFA算法/AC自動機，可有效縮短檢測方法時間。

DFA全稱為：Deterministic Finite Automaton，即确定有窮自動機。

大緻是将敏感資料建構成樹的結構，完成搜尋命中，然後進行處理。

AC自動機

多模式比對算法：在主串中查找多個模式串。(字典樹+kmp算法+失配指針)

（原理todo）

前端

針對客戶輸入的資訊，采用js檢測，判斷是否會命中敏感詞。

後端

服務端：通過已有的敏感詞資料表，查詢判斷。如果敏感詞較多，可使用redis進行緩存處理。

資料庫：敏感詞資料表（後期可背景維護新增）

功能設計

方案1，敏感詞打碼處理。
方案2，提示填寫的資料違規。

敏感詞過濾、網站資訊安全檢測自動化設計方案

網站資訊稽核自動化、敏感詞過濾

功能目标

内容稽核方案

文本内容檢測實施方案

圖檔、音視訊内容檢測方案

文本反垃圾彙總

文本資訊檢測流程（半）自動化

補充

稽核結果處理方案

圖檔、音視訊檢測稽核

文本資訊檢測算法

前端

後端

功能設計

視訊檢測

繼續閱讀

【案例】互軟UCM網站群管理系統—資料安全、内容安全一站式解決

Trie樹實作字首自動補全 + AC自動機實作敏感詞過濾

DFA算法實作的敏感詞過濾器

Kali Linux進行簡單的網頁嗅探

人工智能内容安全不能忽視

知物由學 | 易盾SaaS系統資損防控體系建設

ActionScript 3敏感詞過濾算法

DFA算法，Java實作敏感詞過濾

Java知識【String相關案例】

安全開發第二講-如何實作敏感詞組的快速比對

開發微信小程式需要注意哪些事項？開發社群社交類、聊天類和涉及電信營運、食品衛生等的小程式時需要謹慎對待，避免觸碰政策和法

response中，通過過濾器實作敏感詞過濾

java 敏感詞的過濾

知物由學 | 輿情資料清洗“動”“靜”分離方案

JAVA 關鍵字、敏感字屏蔽過濾功能實作

任務卡_06-JavaWEB_Filter和Listener