一個被封禁的開源架構

2021-11-16 18:25:00

2年前曾整過一個開源架構——違禁詞過濾架構LiteBanner。

算是一個工具類的，當時放在開源中國。因為小巧性能高，還可以自定義詞庫，獲得了不少人的star。

因為架構自帶違禁詞庫，違禁詞庫裡面有什麼。。。這個嘛，你懂的。因為這個原因，是以架構被整治成私有庫，無法公開了。

當然響應相關部門号召，整治網際網路這種行為還是需要的，是要大力支援的。

開發違禁詞架構本身的出發點也是為了過濾那些不良資訊。

當然詞庫本身是從網際網路擷取。别多想哈，我沒那麼高的修為。。。

這篇文章就來介紹下這個架構，因為不公開，是以擷取方式看文末。

架構本身帶有一個詞庫，為一個txt檔案，也可以自己通過程式動态去添加詞語。

結果裡分為兩部分，一部分是過濾出含有的敏感詞語，還有一部分是過濾出的結果。敏感詞語用星号表示。

直接看代碼吧，非常簡單易用。

代碼就不放出太敏感的了。。。

結果為：

就那麼簡單。

你完全可以把詞庫從DB裡加載。然後啟動初始化時動态添加進去。

場景适用于一些站點的資訊錄入，可以過濾一些不良的資訊。

架構是純CPU計算，性能極其高。

曾經過濾過一部50w字的小說。用時1秒。

壓測情況下，峰值可以達到30w詞每秒。

感興趣的同學，想獲得這個開源架構，可以關注公衆号，然後回複<code>ww</code>擷取。

架構内的詞庫我已删除，免得背上傳播xx的罵名，請自行發揮添加。

我是鉑賽東，是一個開源作者和内容部落客，熱愛生活和分享。如果你對我的内容感興趣，請轉發，點贊，然後關注我。

繼續閱讀