天天看點

剖析一種短文本内容安全檢測技術

背景

資料挖掘的工程師都知道,短文本資料在我們的生活中無處不在。隻要我們上網,我們都會遇到形式多樣的短文本,比如文本廣告、圖檔标題、微網誌、優酷視訊、豆瓣評論、短信、百度知道裡的提問和回答。

資料挖掘中的内容分析任務,就是要從這些海量的短文本資料中提取出精準的主題,并為後續的内容識别分類、使用者模組化畫像、意圖識别、熱點話題爆發檢測等任務提供良好的資料基礎。

剖析一種短文本内容安全檢測技術

圖0:短文本資料應用業務場景

盡管在文本分析領域已經有成熟的資料挖掘方法,但是針對短文本的主題挖掘還是存在很多技術瓶頸。

傳統的文本主題挖掘方法比如PLSA、LDA方法,都假設了一篇文章的内容有多種主題混合而成,并且每個主題都有各自不同的權重,占主導地位的主題就展現了一篇文章的主旨。但是,這些傳統的文本模組化技術提出的時候,就是針對文檔層面的詞語共現模式進行設計的,在運用到短文本資料的時候就遇到了嚴重的稀疏性問題。在長文本資料中,有足夠長的文字篇幅讓這些傳統技術學習到詞語的共現關系,主題代表性強的詞能夠在文本中經常出現。但是在短文中,詞語的Wordcount并不能反映哪個詞更重要。而且在短文本資料中,由于缺乏足夠的上下文資訊,這些傳統技術對有多義詞的鑒别能力更是大幅下降。

剖析一種短文本内容安全檢測技術

圖1:LDA文本模型

針對業務中遇到短文本垃圾評論資料,我們采用針對二進制文法機率模組化的BTM模型(A Biterm Topic Model for Short Texts,www2013)對資料進行主題模組化和檢測,在對”色情“-“辱罵”的短文本資料的分類問題中,相比傳統的LDA主題模型,得到了更好的分類效果。

傳統的機率統計方法,本質上是在document層次上對詞語的共現模型進行設計的。進而得到的主題,可以用這個主題相關的詞語來表示。而在短文本問題中,在document的層次級别上反應的上下文資訊較少,BTM模型中,直接對bi-gram的雙元文法的詞語共現進行模組化。BTM模型中,将短文本中的每個詞,看成是一定機率分布下随機生成的過程,直覺地可以用機率圖模型表示如下(請見圖2)。在BTM中,除了假設每一條文本資料的内容是由多種主題構成的,針對二進制文法中共現的詞語pair,兩個詞語也被設計成從同一個主題下的分布生成。

剖析一種短文本内容安全檢測技術

圖2:BTM的機率圖模型

不同于傳統的LDA機率模型,BTM短文本機率統計模型的資料生成過程設計如下:

剖析一種短文本内容安全檢測技術

圖3:BTM文本模型

值得一提的是BTM模型直接對二進制文法中的詞語進行機率分布下的随機生成,而不是對文檔document進行模組化,是以文檔的主題分布特征隻能通過“貝葉斯定理”計算得到,

剖析一種短文本内容安全檢測技術

其中的

剖析一種短文本内容安全檢測技術

BTM模型的訓練學習過程如下:

剖析一種短文本内容安全檢測技術

其中每個輪疊代中,共現雙詞pair的主題的采樣公式為:

剖析一種短文本内容安全檢測技術

最後,疊代結束後,參數更新:

剖析一種短文本内容安全檢測技術

從以上模型設計可以看到BTM的學習訓練過程極為高效,模型參數學習相對于傳統LDA文本模型更為簡單。

短文本内容檢測性能測試分析

以下是業務中BTM模型在短文本評論資料上對“色情”“辱罵”主題的分類檢測流程:

剖析一種短文本内容安全檢測技術

圖4:短文本資料内容檢測流程

圖5所示的是業務中處理的短文本資料經過預處理過濾、分詞得到的樣例資料。

圖6所示的是短文本資料詞頻分布統計,分布情況基本和推薦系統的使用者、商品的大資料分布類似,集中展現出長尾的現象。

剖析一種短文本内容安全檢測技術

圖5:短文本資料

剖析一種短文本内容安全檢測技術

圖6:短文本資料的詞頻分布統計

以下是對BTM和傳統LDA在短文本資料内容檢測識别任務上的性能比較。

圖7是對兩種文本模型在“色情”VS“辱罵”分類任務上的準确率(ACC)性能比較,我們測試比較了BTM和LDA模型在不同Topic主題個數下的性能變化曲線。

圖8是對兩種文本模型在“色情”VS“辱罵”分類任務上的AUC性能名額的比較,我們同樣測試比較了BTM和LDA模型在不同Topic主題個數下的性能變化曲線。

圖9是BTM和LDA文本模型在短文本資料分類(“色情”Vs“辱罵”)上的AUC性能曲線比較。

從結果中,可以看到BTM在短文本主題學習上比傳統的LDA機率文本模型有明顯的優勢:不僅在ACC和AUC具體名額上BTM有更好的效果,傳統LDA文本模型學習到的機率主題特征在TopicNum>300之後,主題特征的同質化現象嚴重(短文本資料集的詞稀疏性、主題稀疏性的影響較重),分類器訓練和預測的時候,預測分數趨向集中,CV确定分類門檻值變得困難,而且偏離0.5的中心值;實際經驗情況,機率模型的先驗參數需要盡可能調低,最優門檻值分數确定在0.585左右。

剖析一種短文本内容安全檢測技術

圖7:BTM與傳統LDA文本模型在短文本内容主題檢測上的準确率(ACC)比較

剖析一種短文本内容安全檢測技術

圖8:BTM與傳統LDA文本模型在短文本内容主題檢測上的分類結果AUC性能名額的比較

剖析一種短文本内容安全檢測技術

圖9:BTM和LDA文本模型在短文本資料分類上的AUC性能曲線比較

為了更直覺的觀察BTM學習到的“語義主題”,我們列印出每個主題下的最具代表性的詞語進行可視化描述。如圖10所示,紅色方框圈出來的“語義主題”具有明顯的“色情”傾向性;藍色方框圈出來的“語義主題”具有明顯的“辱罵”傾向性。在圖11-1和圖11-2中我們選取了其中4個“語義主題”進行詞雲圖的可視化,可以明顯看到各個“主題”的語義傾向性。

剖析一種短文本内容安全檢測技術

圖10:BTM文本模型學習得到的“語義主題”結果

剖析一種短文本内容安全檢測技術

圖11-1:詞雲圖展示挖掘出來的偏辱罵的主題

剖析一種短文本内容安全檢測技術

圖11-2:詞雲圖展示挖掘出來的偏色情的主題

圖12中我們分析了各個類别(“色情”VS“辱罵”)的随着主題個數K變化的檢測性能曲線。可以看到分類檢測的各個類别在精準度Precision和召回率Recall名額上都大體随着主題個數K的增加而穩定提高。

剖析一種短文本内容安全檢測技術

圖12:各個類别檢測結果随BTM主題個數K變化的性能曲線(精準度Precision、召回率Recall)

總結

從短文本資料的内容檢測的分類結果上看,BTM相比于傳統的LDA文本模型克服了短文本資料的稀疏性問題的影響,學習得到更高品質的“語義主題”。

在短文本資料分類任務上BTM比傳統的LDA文本模型在ACC準确率和AUC性能名額上都更高更穩定,相比于LDA文本模型具有明顯的優勢(文/易盾實驗室)。

以上,隻是簡單介紹了短文本内容安全檢測其中一小塊的技術,實際應用中,網易易盾采用了更加複雜的模型和多套組合拳。

如果對内容安全檢測能力要求比較高的客戶,可以點選免費體驗網易易盾高效、智能的内容安全服務。

繼續閱讀