天天看點

Graph for fraud detection(欺詐檢測圖)-(譯文)

作者:閃念基因

在本文中,我們将探讨随着欺詐模式的增加和多樣化,我們如何使用基于圖形的模型來解決欺詐檢測問題。

Grab 在過去幾年發展迅速。它已将業務從網約車擴充到食品和雜貨配送、金融服務等。Grab 中的欺詐檢測具有挑戰性,因為每當我們推出新的業務産品時,總會出現新的欺詐模式。每當出現新的欺詐模式時,我們都負擔不起開發新模型的費用,因為這既耗時又引入了冷啟動問題,即在早期階段沒有任何保護。我們需要一個通用的欺詐檢測架構來更好地保護 Grab 免受各種未知的欺詐風險。

我們的主要觀察是,盡管 Grab 有許多不同的垂直業務,但這些業務中的實體互相連接配接(圖 1. 左),例如,兩名乘客可能通過 Wi-Fi 路由器或電話裝置連接配接,商家可以通過食品訂單等與乘客聯系起來。圖表提供了一種優雅的方式來捕捉 Grab 生态系統中不同實體之間的空間相關性。常見的欺詐行為在圖表上顯示出清晰的模式,例如,欺詐集團傾向于共享實體裝置,并且商家與孤立的一組乘客之間存在勾結(圖 1. 右)。

Graph for fraud detection(欺詐檢測圖)-(譯文)

圖 1. 左:該圖捕獲了 Grab 生态系統中的不同相關性。

右圖:該圖顯示常見欺詐具有清晰的模式。

我們相信圖表可以幫助我們更有效地發現細微的痕迹和複雜的欺詐模式。基于圖的解決方案将成為我們對抗已知和未知欺詐風險的可持續基礎。

為什麼要圖表?

最常見的欺詐檢測方法包括規則引擎和基于決策樹的模型,例如提升樹、随機森林等。規則是由人類專家設計的一組簡單的邏輯表達式,用于解決特定的欺詐問題。它們适用于簡單的欺詐檢測,但在複雜的欺詐或未知欺詐案件中通常效果不佳。

欺詐檢測方法

利用相關性

(越高越好)

檢測未知欺詐

(越高越好)

需要特征工程

(越低越好)

取決于标簽

(越低越好)

規則引擎 低的 不适用 不适用 低的
決策樹 低的 低的 高的 高的
圖模型 高的 高的 低的 低的

表 1. 圖與常見的欺詐檢測方法。

在過去幾年中,基于決策樹的模型一直主導着結構化或表格資料的欺詐檢測和 Kaggle 競賽。話雖如此,基于樹的模型的性能高度依賴于标簽和特征工程的品質,而這在現實生活中往往很難獲得。此外,它通常在标簽中沒有看到的未知欺詐中效果不佳。

另一方面,基于圖的模型需要很少的特征工程,并且适用于對标簽依賴性較低的未知欺詐檢測,因為它利用了圖上的結構相關性。

特别是,欺詐者傾向于在圖表上顯示出很強的相關性,因為他們必須共享個人身份、電話裝置、Wi-Fi 路由器、送貨位址等實體屬性,以降低成本并最大化收入,如圖所示2(左)。圖 2(右)顯示了這種強相關性的一個例子,圖中的實體緊密相連,已知的欺詐者以紅色突出顯示。圖上的那些強相關性是使基于圖的方法成為各種欺詐檢測任務的可持續基礎的關鍵原因。

Graph for fraud detection(欺詐檢測圖)-(譯文)

圖 2. 欺詐者傾向于共享實體屬性以降低成本(左),并且如圖所示(右),它們緊密相連。

半監督圖學習

與傳統的基于決策樹的模型不同,基于圖的機器學習模型可以利用圖的相關性,即使标簽很少也能實作出色的性能。半監督圖卷積網絡模型近年來非常流行1。它已經在許多跨行業的欺詐檢測任務中證明了它的成功,例如,電子商務欺詐、金融欺詐、網際網路流量欺詐等。我們應用關系圖卷積網絡 (RGCN) 2用于 Grab 生态系統中的欺詐檢測。圖 3 顯示了 RGCN 的整體架構。它以一個圖作為輸入,圖通過幾個圖卷積層得到節點嵌入。最後一層輸出每個節點的欺詐機率。在每個圖卷積層,資訊沿着圖中的鄰域節點傳播,即圖上靠近的節點彼此相似。

Graph for fraud detection(欺詐檢測圖)-(譯文)

圖 3. 半監督關系圖卷積網絡模型。

我們在具有數百萬個節點和邊的圖上訓練 RGCN 模型,其中圖上隻有一小部分節點具有标簽。半監督圖模型對标簽的依賴性很小,這使其成為應對各種類型未知欺詐的強大模型。

圖 4 顯示了 RGCN 模型的整體性能。左邊是标簽資料集上的接收者操作特征(ROC)曲線,特别是接收者操作特征下的面積(AUROC)值接近1,這意味着RGCN模型可以很好地拟合标簽資料。右列顯示了節點嵌入在标簽資料集上的低維投影。很明顯,真正乘客的嵌入與欺詐乘客的嵌入很好地分開了。該模型可以很好地區分欺詐乘客和真正的乘客。

Graph for fraud detection(欺詐檢測圖)-(譯文)

圖 4. 左:RGCN 模型在标簽資料集上的 ROC 曲線。

右圖:圖節點嵌入的低維投影。

最後,我們想分享一些技巧,使 RGCN 模型在實踐中運作良好。

  • Use less than three convolutional layers : 如果卷積層很多,節點特征會被過度平滑,即圖上的所有節點看起來都很相似。
  • 節點特征很重要:節點的領域知識可以表述為圖模型的節點特征,豐富的節點特征可能會提升模型性能。

圖的可解釋性

與其他深度網絡模型不同,圖神經網絡模型通常具有很強的可解釋性,這就是使用者被歸類為欺詐的原因。例如,欺詐賬戶可能會共享硬體裝置并在圖表上形成密集的叢集,而這些欺詐叢集可以很容易地在圖表可視化器3上被發現。

圖 5 顯示了一個示例,其中圖形可視化有助于解釋模型預測分數。RGCN分數低的真乘客不與其他乘客共享裝置,而RGCN分數高的欺詐乘客與許多其他乘客共享裝置,即密集叢集。

Graph for fraud detection(欺詐檢測圖)-(譯文)

圖 5. 左上:具有低 RGCN 分數的真正乘客沒有與其他乘客共享裝置。右下:具有高 RGCN 分數的欺詐使用者與許多其他乘客共享裝置。

結語

圖為打擊許多不同類型的欺詐風險提供​了可持續的基礎。如今,欺詐者的發展速度非常快,傳統規則或模型所能做的最好的事情就是在已經發現欺詐模式的情況下追捕這些欺詐者。這是次優的,因為損壞已經在平台上完成。在圖形模型的幫助下,我們可以在進行任何欺詐活動之前檢測到這些欺詐者,進而降低欺詐成本。

圖結構資訊可以顯着提高模型性能,而無需過多依賴标簽,而标簽通常很難獲得,并且在欺詐檢測任務中可能存在較大偏差。我們已經表明,在圖表上僅使用一小部分标記節點,我們的模型就已經可以實作出色的性能。

話雖如此,要使圖形模型在實踐中良好運作也存在許多挑戰。我們正在努力解決我們面臨的以下挑戰。

  • Feature initialisation : 有時,很難初始化節點特征,例如,裝置節點不具有很多語義。我們探索了自監督預訓練4來幫助特征初始化,初步結果很有希望。
  • 實時模型預測:實時圖模型預測具有挑戰性,因為在大多數情況下實時圖更新是一項繁重的操作。一種可能的解決方案是進行批量實時預測以減少開銷。
  • 嘈雜的連接配接:圖表上的某些連接配接在圖表上本身就是嘈雜的,例如,兩個使用者共享相同的 IP 位址并不一定意味着他們是實體連接配接的。IP 可能來自移動網絡。一種可能的解決方案是在圖卷積核中使用注意力機制,并根據連接配接類型和節點配置檔案控制消息傳遞。

參考

  1. T. Kipf 和 M. Welling,“使用圖卷積網絡進行半監督分類”,ICLR,2017 年
  2. Schlichtkrull、邁克爾等人。“使用圖形卷積網絡對關系資料進行模組化。” 歐洲語義網會議。施普林格,查姆,2018 年 。
  3. Fujiao Liu、Shuqi Wang 等人。“圖形網絡 - 使用圖形可視化進行 10 倍調查”。抓住技術部落格。
  4. Wang, Chen, et al..“非屬性圖的深度欺詐檢測”。IEEE 大資料會議,PSBD,2021 年 。

作者:陳敏 · Advitiya Vashist · Jenn Ng · 陳佳

出處:https://engineering.grab.com/graph-for-fraud-detection

繼續閱讀