小紅書反作弊的政策和算法負責人 汪浩然
本文主要會分享三個方面的内容,首先我會講講我和阿裡風控的故事,接着我會講一下阿裡雲的風控産品賦能以及阿裡的機器學習平台賦能,最後我會介紹一下智能風控以及智能風控依靠的雲計算能力。

首先我想介紹一下我和阿裡風控的故事,總的來說,我從一個主動的賦能者參與者,逐漸到今天成為了阿裡的校友,成為了一個合作者和一個被賦能者。一開始我最早是在螞蟻大安全參與了蟻盾的這樣一個産品,以及 rain score 這樣一個東西來賦能到生态圈,我從那個時候開始入門風控,然後知道了有賦能這樣一件事情,後來我又參與了集團的供應鍊風控以及供應鍊金融的事情,我開始了解到風控它是一個鍊路上的問題,從前面的營銷、交易到供應鍊、物流,它是一個完整的鍊路,然後以至于到今天能幫助我更好的從全局角度去把握這樣的一件事情。
現在我在小紅書成為了阿裡的校友,那麼我一開始就有一個非常樸素的情懷,就是說阿裡的好東西我們該用上,是以現在是被阿裡賦能着,是以這也是非常有趣的一個故事。
接下來講一下智能風控的政策體系,風控的政策它一般來說主要包括規則和算法兩大部分,最近我也是在内部教育訓練的時候也總結出來,規則簡單的來說就是劍未佩妥出門已是江湖,而算法更多的時候是10年磨一劍,今日把示君。
為什麼說劍未佩妥,就很多時候,比如說你上一個新的業務,它會出現很多新的情況,我是有很多業務的底線要去遵守,我有不能承擔的資損,我又有不能容忍的使用者行為,是以這時候需要用規則來做一個業務的兜底,而很多時候風險它又是突發的,我們如何能夠快速的止損,這時候必然要通過一些有效的規則來實作,因為這時候等你去做一個算法,那是來不及的。那麼從特征上來說,規則很多時候他就是用的一些非常強的特征去直接的做判斷和識别,而且規則非常依賴專家的經驗,就是人對于業務的了解和對于資料的了解。
算法很多時候是随着你業務的發展,你就會有很多的油水、有很多的羊毛,那麼别人自然會想辦法去繞過你的那些規則來獲得利益。是以這時候算法承擔的角色更多地是一個非常深度的對抗。其次算法它是一個慢工細活,因為大家都知道,為什麼要用這個算法,不用那個算法,為什麼用這一個參數的組合這樣調參不用那樣,為什麼你最後是這麼去使用這個算法,那都是有非常大的很細緻的工作要去做,這個周期也是比較長,可能有時候一兩個月兩三個月一個算法才完成從它的設計到最終上線發揮作用。從特征上來說,算法更多的時候,它是一個強弱特征共用的過程,算法其實也就是大家常說的人工智能。
另外我想介紹一下智能風控中一些代表性的算法,我在内部給算法的項目起了個名字叫七劍下天山,因為小紅書目前我們團隊還比較年輕,不像阿裡有那樣一個階層化的梯隊和分工,很多同僚他既要每天處理日常的一個風險,像一個分集的劇情,然後他又要去做一個長線的算法,就像一個長線的劇情那樣去開展自己的工作。我們覺得七劍下天山這個名字是非常的貼切,就是我們先練好七把劍,然後下山斬妖除魔來進行這樣一個風險的對抗。
比較有代表性的就是第一把劍莫問劍圖神經網絡的學習,因為這幾年集GCN也是非常的火,小紅書作為一個社群,它有使用者和筆記的關系,也有使用者和使用者之間的關系,那麼組成了這樣的一個社交網絡。那麼我們使用GCN去訓練的時候,就自然會拿到使用者筆記作為點上的一些特征,以及他們的各種互動interaction之間的一些特征來進行學習,那麼事實證明确實能學到很好的東西,很有意思的一些結論。
然後還有一個就是圖上的社群發現,因為圖上的社群發現在風控領域也熱了很多年了,小紅書作為一個社群,其中有人喜歡美妝,有人喜歡汽車,本身就是一個天然的興趣的社群。那麼其次作為黑産來說,它會有很多的團夥特性的出現,那也可以看作是一種社群。是以我們把這個名字起做遊龍劍,因為圖上的社群發現背後的數學原理很多都用的是随機遊走的思想,然後目前我們也是一個麻省數學系的同學在做這樣的一個算法,接下來還有标簽傳播算法,因為風控有很多很經典的場景就是說我們能很輕易的拿到一些肯定是有把握的黑樣本或者白樣本,但這時候它的數量是不夠的,我們怎麼辦?标簽傳播算法在業界也熱了幾年了,它可以作為一個經典的場景,通過這種相似關系把黑白樣本給擴充出來,獲得一個更大的黑白樣本集合和我們需要的一些資訊。
最早我在螞蟻金服就開始了标簽傳播算法的工作,做到現在其實也是希望通過這個項目能做些新意出來,在一些新的社群上達到一個舊書常讀出新意的一個人生追求。然後另外還有一個遷移學習,就是說很多時候風控也會對特定的文本或者特定的圖像去識别某種特定的風險pattern。但是作為一個風控的算法團隊,你很難說我去訓練一個base的bert,或者base的ImageNet這樣的一個模型,我肯定是要進行一些遷移學習來快速識别我想識别的那些風險pattern,是以其實叫日月劍也是蠻貼切的,最終完成一個乾坤大挪移,不同的倒面之間的知識進行遷移,不同的future領域進行遷移,不同的label空間進行遷移這樣的一個效果。當然我們還有更多的劍在路上。
然後想講一下智能風控依靠的雲計算能力,就是說其實很多的公司一開始肯定追求的是這種業務的成功或者是算法的成功,沒有辦法像阿裡這樣沉澱一個非常大的中台、背景。缺少這些東西的時候,你怎麼來開始你的工作?比如說你很多新業務剛上來,你本身的風險積累就比較少,你怎麼來做?這時候其實就可以考慮引入一些雲風控的服務。
其次大家想做人工智能,很多時候會缺乏人工智能硬體管理的平台,以及你怎麼去完成模型的訓練,這時候雲上的資源、雲上的平台都是非常好的一種選擇,尤其是當我們從一開始的一些建議已經配妥了以後,開始要做一些模型和算法的工作的時候,會發現模型的運維成本是很高的,因為模型不是簡單的說我們訓練了一個模型檔案,然後跑了個預測就好了的,我們要持續的觀察模型的表現以及新的模型檔案的替換,這樣的流量測試還有等等一系列的問題,這時候肯定是需要一個自動化的平台來工作的。
其次還有一個繞不開的問題就是說一線的算法工程師很多時候是缺乏開發能力的,比如說圖神經網絡這個東西,你讓一般的算法工程師用PyTorch或者Tensorflow去實作一個多卡的分布式訓練,然後再實作一個高效的預測,基本上是一個很難的任務,至少在我認識人當中很少有人能勝任這樣的工作,這時候怎麼辦?我們隻能專業的事情找專業的人,使用一些進一步封裝的專業化的計算庫,尋求生态圈内的合作夥伴來解決這個問題。
最後我想展望一下未來,其實我覺得未來有幾個非常重要的關鍵詞,人工智能中的人工,還有君子不器。随着人工智能的發展,智能雖然越來越強了,但是還是有很多種标注的任務,以及說你随着新業務往往是伴随着新的風險,專家知識依然是要為風險去把關的。
其次很多标注的任務它是跟你的生态,比如說小紅書的調性,什麼是小紅書的調性?那是随着業務的了解去打标的,而不是随便就能夠打出來的,這時候都非常需要人的專家知識,還有說君子不器,就是論語中說君子不器就是說君子不能隻成為某個領域的專才,因為風控要面對的對象是很多的,有圖像的、有文本的、有視訊的、有關系的、有行為的,就是我們對各個領域的算法都要有了解,都能夠應用它去進行風控,而不能陷入那種門派之争,就像倚天屠龍記當中的楊逍說的一個人的武功,有了門派就是落了下乘,其實我們希望有這樣一個開放的心态,最終能做到君子不器。
其實技術上也有很多的東西需要攻克,比如說反例攻擊,因為随着神經網絡的使用,越來越多的神經網絡本身就很容易被反例攻擊,我們也觀察到了很多有意無意被反例攻擊的一些案例。其次還有聯邦學習,就生态圈中如何能更好的賦能和被賦能,我覺得聯邦學習是一個探索的方向,這樣的話就不單純隻是一個結果之間的賦能,其次還有大量的技術要突破的,比如說圖神經網絡,我們真正用多GPU去訓練的時候,目前還遇到就是每個GPU的使用率是比較低的,如果這個問題不能夠很好的解決的話,花那麼多錢你去買GPU,最後使用率很低,财務就會來找你。還有包括我們在使用圖資料庫等等方面,尤其風控對時間的要求是非常的嚴的,可能在特定的時間就一定要出結果的,是以不管是training的效果還是一個influence,時間上的提升都是非常重要的,是以這些在未來還是有很多技術的突破,但是我覺得不管技術如何發展,時代如何發展,那麼決定戰争勝負的還是人的因素。
謝謝大家!
更多大資料客戶實戰案例:
https://developer.aliyun.com/article/772449