天天看點

一個被封禁的開源架構

2年前曾整過一個開源架構——違禁詞過濾架構LiteBanner。

算是一個工具類的,當時放在開源中國。因為小巧性能高,還可以自定義詞庫,獲得了不少人的star。

因為架構自帶違禁詞庫,違禁詞庫裡面有什麼。。。這個嘛,你懂的。因為這個原因,是以架構被整治成私有庫,無法公開了。

當然響應相關部門号召,整治網際網路這種行為還是需要的,是要大力支援的。

開發違禁詞架構本身的出發點也是為了過濾那些不良資訊。

當然詞庫本身是從網際網路擷取。别多想哈,我沒那麼高的修為。。。

這篇文章就來介紹下這個架構,因為不公開,是以擷取方式看文末。

架構本身帶有一個詞庫,為一個txt檔案,也可以自己通過程式動态去添加詞語。

結果裡分為兩部分,一部分是過濾出含有的敏感詞語,還有一部分是過濾出的結果。敏感詞語用星号表示。

直接看代碼吧,非常簡單易用。

代碼就不放出太敏感的了。。。

結果為:

就那麼簡單。

你完全可以把詞庫從DB裡加載。然後啟動初始化時動态添加進去。

場景适用于一些站點的資訊錄入,可以過濾一些不良的資訊。

架構是純CPU計算,性能極其高。

曾經過濾過一部50w字的小說。用時1秒。

壓測情況下,峰值可以達到30w詞每秒。

感興趣的同學,想獲得這個開源架構,可以關注公衆号,然後回複<code>ww</code>擷取。

架構内的詞庫我已删除,免得背上傳播xx的罵名,請自行發揮添加。

我是鉑賽東,是一個開源作者和内容部落客,熱愛生活和分享。如果你對我的内容感興趣,請轉發,點贊,然後關注我。

一個被封禁的開源架構