天天看點

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

作者:AITIME論道

張一舟:

南加州大學維特比工程學院計算機系博士生,導師為Yan Liu教授。他的研究興趣包括圖資料與時序資料上的機器學習及其應用,如社交網絡分析,曾在NeurIPS, KDD, TheWebConf, IJCAI, ICDM等學術會議和期刊上發表論文。他于2019年獲得北京大學計算機科學與技術學士學位。

虛假協作賬号檢測

近年來,在一些大型社交媒體平台,如推特上,出現了很多虛假賬号,比如機器人。他們通過協作的的方式,如互相點贊、評論和轉發,來幹預資訊的傳播,進而影響公衆觀點。圖1展示了兩個被推特官方懷疑存在違規行為的賬号的部分活動。這些虛假賬号的活躍促使研究者探尋如何自動化地檢測他們。傳統的方法主要來自計算社會學和人機互動領域。該領域的研究者們通常會利用一些先驗知識來建構一個衡量賬号之間行為一緻性的圖(graph,不是圖檔),然後在這個圖上進行聚類或者檢測。這種方法過于依賴先驗知識的品質,并且表達能力也不強,很多複雜的互動行為被簡單的壓縮成了一個标量邊權。是以,這類方法的準确率普遍較低,尤其是在無監督場景下。為了解決這個問題,近年來的研究開始使用資料驅動的的機器學習方法來為賬号學習表示向量,然後在表示向量空間進行檢測。比如AMDN-HAGE,通過最大化社交媒體上觀測到的時序資料的似然值(類似自然語言進行中的詞向量學習,用過去的事件的表示向量來預測未來事件)來學習賬号的表示向量。但是這類方法又很依賴資料的品質和規模。對于一些活動頻率低、相對沉默的賬号,這類方法往往學不到很好的表示。為了解決這一問題,我們提出了VigDet。這一模型利用領域知識來幫助神經時序點過程(一種資料驅動模型)學到更好的表示。

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

圖1: 協作行為的樣例。這兩個賬号被推特官方懷疑存在違規行

時序點過程與其神經網絡模組化

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

圖2: 社交媒體上時序點過程的樣例

時序點過程(如蔔瓦松過程)是一種常見的随機過程。它描述了連續時間軸上發生的一系列離散事件。社交媒體上的事件(如釋出資訊、點贊、轉發和評論)是一種非常典型的時序點過程。圖2展示了如何将一條資訊的傳播模組化為時序點過程。一條資訊(比如一條推特)釋出的時刻即為時間軸上的0點,之後每個與該條資訊的互動(如點贊評論轉發)即為一個事件。每個事件包含兩個資訊:使用者id和時間戳(此處為了适應不同平台的設計,我們略去了具體的事件類型)。每個事件發生的機率被模組化為給定之前發生的所有事件的條件機率。我們使用神經網絡來模組化這一分布:

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

其中S[1:i-1]表示第i個事件前的所有事件,我們可以用RNN或者Transformer來講他們編碼為一個向量Ci,然後分别用兩個解碼器fm和ft來預測未來互動的使用者和時間。然後我們通過最大化已觀測到事件的似然值即可學習模型參數。具體流程如圖3所示。

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

圖3:使用神經網絡模組化時序點過程

VigDet:結合領域知識與神經點過程

為了将領域知識表達為可供機器學習模型學習的形式,我們先像傳統方法一樣,利用先驗知識建構一張衡量賬号之間行為一緻性的圖。本文中,我們使用“共同活動”(co-activity)這一先驗知識,即經常和同一條資訊互動的使用者行為更一緻。在以此先驗知識建構的圖中,兩個使用者間的邊權為他們共同出現過的時間序列的總量。然而,傳統方法建構的圖往往含有噪音,這是因為受虛假賬号影響的真實賬号也可能會和虛假賬号共同出現。是以我們需要對圖進行降噪。此處我們提出了兩種方法:幂函數降噪與時序邏輯降噪。

幂函數降噪(Power Function,PF):盡管真實賬号可能和虛假賬号共同出現,但是統計意義上虛假賬号共同出現的機率更大,是以我們可以使用幂函數來放大這種差異,然後對邊權進行歸一化。

時序邏輯降噪(Temporal Logic,TL):我們可以将更多的先驗知識表示為時序邏輯,然後利用這些時序邏輯去除掉一些沒有意義的共同出現,比如過于熱點的序列(所有人都回應過)

利用以上兩種政策,我們可以獲得一個降噪後的先驗知識圖。接下來,我們需要考慮如何結合圖和時序資料來進行協同檢測

結合領域知識與表示學習進行檢測

為了将圖和基于時序資料的使用者表示學習結合到一起,我們提出利用使用者的表示向量與先驗知識圖共同建構一個條件随機場(Conditional Random Field,CRF)。條件随機場是一種機率圖模型。機率圖中的每個節點是一個待檢測的使用者。我們把整個圖中所有節點的檢測結果合集記為Y,則每個可能的Y的機率為:

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

其中是能量函數,包含兩項,第一項是基于單個節點的embedding計算出的标簽的傾向性,第二項是基于每條邊上的使用者标簽的一緻性計算出的傾向性。直覺來看,第一項包含了來自使用者表示向量的資訊,而第二項包含了領域知識圖的限制(行為一緻性更高的使用者更有可能具有相同的标簽)。Z是對所有可能的Y的能量函數求和以保證P是一個機率分布。然而,Z本身是對指數多的Y進行求和,是以時間複雜度極高。為了解決這個問題,我們提出通過圖4所示的EM算法來同時學習P和P的平均場近似Q。在這個算法中,E-step和M-step交替進行。E-step中我們固定P和能量函數,隻計算P的最優平均場近似Q(最小化P和Q的KL散度)。在M-step中,我們固定Q不動,轉而通過優化資料似然值的證據下界(Evidence Lower Bound)來學習模型參數。

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

圖4: 用于聯合學習能量函數和平均場近似的EM算法

實驗結果

我們首先在一個帶有真實标簽的資料集上比較了我們的模型和已有模型的準确性。除已有模型,我們還加入了我們的模型的兩個變體。一個隻包含了我們算法中的E-step,另一個則是實用僞似然來進行學習。比較結果如表1表2所示。可以看到我們的模型表現顯著超越了已有模型和自身變體。

我們進一步在一個新冠新聞相關的推特資料集上做了檢測。由于這個資料集很新,是以沒有真實标簽。是以無法進行計算準确率和進行對比。但是我們仍對檢測結果進行了一定的分析。圖5展示了我們檢測出的疑似虛假賬号的主要回應話題和其餘賬号的主要回應話題。可以看出二者之間的顯著差異。

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

表1: 無監督學習的結果

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

表2: 半監督學習(提供5%的使用者标簽)的結果

幹貨!VigDet:一種結合領域知識和資料驅動的虛假賬号檢測

圖5:疑似虛假賬号群體的主要互動話題(左)和其餘使用者的主要互動話題(右)

繼續閱讀