天天看點

盧明樊:愛奇藝的業務安全風控“秘籍”

“風控是不能脫離業務存在的,是業務營運的重要組成部分。”

在過去的一年,拼多多受到羊毛黨大規模攻擊,航空公司網站遭遇大量虛假訂票查詢,生鮮平台“呆蘿蔔”頻頻暴雷……現實而慘重的代價,驗證了業務安全正逐漸成為企業持續發展的生命線。

企業的一大半困擾都來自業務風險,而如何結合特定場景下的業務,降低、控制圍繞着業務的風險應該是絕大多數企業反複思考的“保命”命題。此次,我們采訪到了愛奇藝雲服務進階總監和安全團隊負責人盧明樊,深入探讨企業業務安全風控體系的搭建之路,希望從愛奇藝“4年一中台”的實踐,為不同類型的企業打開業務風控思路。

盧明樊:愛奇藝的業務安全風控“秘籍”
盧明樊:愛奇藝雲服務進階總監和安全團隊負責人,在加入愛奇藝之前,曾任職于Intel和VMWare,在雲計算、雲存儲、大資料風控、安全體系建設等方面都有着豐富的經驗。

打通風控落地前的任督“二”脈

如果風控是一本真經的話,那麼修煉之前一定要打通任督二脈,才能事半功倍,日進千裡……

盧明樊:愛奇藝的業務安全風控“秘籍”

所謂任督二脈,就“二”在知不知道風險在哪裡?知不知道風控的真正目的?

随着企業業務發展,業務種類和形态趨于複雜,使用者權益以及業務價值逐漸變高, 這時候,企業開始腹背受敵。除了面臨來自基礎安全層面的傳統黑客入侵攻擊和内部破壞洩露的挑戰,在業務安全方面承受的威脅和挑戰也越來越大。

都說知己知彼,百戰不殆,那麼第一步就是要了解企業面臨的風險有哪些,出現在哪些業務場景中。

常見的業務威脅類型

1、賬号安全風險。撞庫盜号屢見不鮮,正常使用者資訊被洩露,相關權益被竊取或者惡意分享,直接危害到個人隐私甚至資金和人身安全。

2、拉新裂變促活等增長活動招引大量的羊毛黨或者投放管道的惡意作弊,導緻企業的大量投入打水漂,養肥了羊毛黨而業務一蹶不振。

3、對内容或者社群型的平台而言,不良資訊的惡意傳播會導緻被監管,進而影響業務的可持續性甚至帶來存亡危機,優質内容也面臨被爬取和盜用的風險。

4、對生态型的平台而言,虛假作弊流量泛濫,嚴重幹擾了平台營運政策,導緻劣币驅逐良币的效應,甚至平台利益配置設定機制是以被利用而導緻大量利益被套取。

5、電商、支付和金融場景下的欺詐風險更為普遍,賣家、買家、出資方甚至中間平台往往在欺詐事件中慘遭損失。

與此同時,雖然國家層面對黑産不斷加大的打擊和治理力度,企業自身的防禦意識和能力也在不斷提升,但是黑産威脅也呈現出很多新的變化,比如:

(1)利益驅動下規模還在變大。

據粗略統計,目前中國黑産從業人員已經超過200萬,黑産市場規模達到千億級别。

(2)産業鍊分工更細緻完整。

已經實作從社工釣魚,逆向破解,APP僞造,惡意植入,漏洞挖掘,羊毛情報分享,物料(IP,裝置,号,證,資訊)供應,批量工具和自動化操作,任務分包和網賺平台,群控雲控,打碼接碼,交易變現等精細化分工。即使面對企業業務的越來越複雜的邏輯,黑産也可以在短時間内通過整合資源快速形成攻擊能力,業務方的小小漏洞或者失誤就可以在非常短的時間内被利用而造成損失。

(3)廣泛使用雲計算、大資料、AI等新技術。

例如利用的IP從簡單的代理到秒撥再到雲撥的演進,從腳本到虛拟機再到真機群控進而真機雲控演進,大量引入了AI技術來突破驗證碼等各種人機校驗等,導緻技術能力不足的業務方往往容易在對抗中落于下方。明确企業面臨的業務風險,并做了充分評估後,再去思考風控問題。而在風控體系落地前,三大心得送給大家:

風控離不開業務

首先,風控不能脫離業務而存在,其次,風控要保障的是業務可持續性穩定發展并達成其發展目标,兩者的目标是一緻的,是以,“風控是業務營運的重要組成部分”這一點應該達到共識。

風控是在可控的範圍内經營風險

控制并不是要消滅所有發現的風險,而是可以考慮風險阻斷、風險轉移、風險累積自擔等多種方法,需要對投入、損失或者收益不斷的監控和評估,通過動态調整政策達到風險可控的目标。畢竟一味阻斷風險可能帶來的過大的投入,使用者體驗嚴重下降,業務發展阻滞等問題,是以風險的營運應該納入到業務營運活動中來。

風控系統因企業而異

理想狀态下,企業都需要有風控系統。但是!

盧明樊:愛奇藝的業務安全風控“秘籍”

風控作為一個內建了風險意識教育,風險評估,加強,高性能引擎,威脅情報,前端能力(加強,資料采集,驗證),攔截阻斷能力,離線和流式大資料系統,數倉,算法模型,跨業務聯防聯控,持續預警監控,應急響應,政策優化,持續營運的綜合性系統……建構一個全棧的風控系統需要投入相當的成本。現實背景下,做不做風控系統,需要企業做好評估。

可以識别核心風險和關鍵威脅,并且在業務系統中加入一定的風險控制政策或者獨立的風控系統來支撐,通過自行研發或者采購來滿足內建建構風控能力,至于采用哪種方式,還是實事求是,根據自身具備的基礎設施、服務資源和可增加的投入,實作風險—投入的最大化收益。

有目标地沖刺,愛奇藝4年1中台

如果了解的話,應該知道愛奇藝的業務安全風控起步并不算早。

2013年,盧明樊加入愛奇藝,2015年從0開始建設安全團隊,重構安全架構和服務體系。2016年,他将目光轉向了愛奇藝的業務安全風控。

彼時,面臨的問題是:

1、業務線各自為戰,僅依靠安全事件驅動, 在本業務做事前單點防禦,對抗經驗和資料無法實作跨業務共享,存在重複建設和平台資源浪費,單點防禦容易被黑産各個擊破, 無法做到跨業務跨團隊的聯防聯控。

2、業務風控相關政策是簡單設定的門檻值型規則為主,沒有引入資料分析或者機器學習等能力, 容易造成防禦不足或者防禦過度,不能快速識别攻擊變化進行調整,往往因為和業務代碼耦合,依賴業務開發, 測試和上線,占用業務排期而失去快速響應能力,容易成為業務關鍵路徑, 對業務穩定性造成影響。

3、風險處置手段單一,嚴重依賴IP,公共出口誤殺嚴重,以限頻,限流,圖文驗證為主,黑白名難維護,無退出機制。

可以說,起步不算早,問題不算少,橫批:難。

但是,在這樣的背景下,盧明樊還是定下了一系列目标,畫下了一張“大餅”,帶着團隊的安全人員一起沖刺。

盧明樊:愛奇藝的業務安全風控“秘籍”

如果是從頭開始建設企業業務安全風控系統,那為什麼不一次性先做到位,在設計過程中就融入安全?盧明樊秉持着這樣的理念,将服務、營運、資料、算法和前後端協同都納入考慮。再結合痛點高的Pilot業務安全問題,不斷完善優化。

盧明樊:愛奇藝的業務安全風控“秘籍”

在目标驅動下,愛奇藝的業務風控系統成型,又随着接入的業務以及相關場景越來越多,為了解決新業務接入成本高、政策不易複用、資料繁蕪、業務參與風險營運不足、客訴響應耗時消力、常态化救火應急等諸多問題,風控系統逐漸向風險中台邁進。

愛奇藝風險中台的全景架構,主要由以下幾個部分組成:

盧明樊:愛奇藝的業務安全風控“秘籍”

業務中心

業務通過業務中心實作快速接入,業務場景如屬于已支援的預設場景,即可複用場景化解決方案和政策模闆,非預設場景可以通過定制化接入,所有接入實作了角色和權限管控,并獲得實時風險決策API的接入方式和文檔,友善聯調測試。此外,業務中心也會根據依賴的資料和驗證政策引導業務接入依賴的其他前後端能力(如裝置指紋,生物探針,驗證中心等)。

統一實時風險決策接口服務

業務接入後,業務的背景服務即可調用統一實時風險決策接口服務,該服務依托于風險中台的六大核心引擎,分别為:規則引擎、模型引擎、查詢引擎、工作流和決策引擎、場景引擎、仿真和灰階引擎。

注意:實時風險決策接口服務對可用性和性能要求非常高,特别是在單次通路高業務價值的情況下,必須做到超高并發,低延遲,低逾時率,斷熔限流托底等各種服務能力。

資料中心

資料中心依托于愛奇藝的各類雲資料庫和大資料平台,利用HBase、TiDB、HiGraph(圖存儲)、MongoDB、ES、Druid、HDFS、Hive等多種資料庫和數倉來存儲各種類型的資料,所有這些資料通過離線、流式分析、圖分析、機器學習推理能力,以及風控名額特征計算平台對各種資料源進行分析、統計、推理得到。

風控所用的資料源包括但不限于威脅情報、實時風控日志、業務資料、裝置資料、行為資料、驗證資料、資料中心其他風險資料、客訴資料等等。

智能算法中心

提供各種算法模型,滿足實時和離線的各種需要,包括并不限于: 大規模異常檢測,關聯分析,社群挖掘和圖分析,人機識别和校驗算法,信譽計算算法,子產品化的通用無監督算法,行為式垃圾檢測算法,風險預警算法等。

前端能力接入實作雲端協同

根據不同業務場景的需求資料次元不同,業務前端可通過內建內建前端SDK來采集相應的資料,并通過采集服務接收,這些資料會成為風險決策的重要資料來源。例如: 我們提供了智能驗證的産品-驗證中心,以SDK的形式嵌入保證了業務前端切換驗證方式通過手工雲配以及動态升降級就可以快速切換。

營運中心

風險中台營運中心不僅提供了接入業務的管理,監控和報表能力,資料中心管理和各種引擎的運維能力等基礎功能,另外提供了提供精細化營運的支撐,囊括了 政策中心,評價體系,深層檢測,案件管理,和智能報警等多個子產品。

盧明樊:愛奇藝的業務安全風控“秘籍”

政策中心

進行各業務的政策配置,支援場景管理和政策模版維護和模型配置。風險中台的政策中心支援樹型風險點配置模式, 可快速裝配政策集, 并控制對外展現粒度,對一個新業務定制化支援的情況下,新增政策集時間由之前的2人天降低為0.5人天,極大提高了業務接入的效率。

此外,營運中心初步建立起了政策,資料,模型等相關評價體系,結合線上攔截效果,貢獻度和引發客訴情況進行綜合評價,逐漸提精去蕪。。

值得注意的是,作為風控團隊,需要充分考慮平台的獨特場景和業務價值所在,確定核心業務和生态的健康發展,業務價值得到保護。以内容平台愛奇藝為例:

付費會員業務愛奇藝目前最大的業務,風控應從賬号安全角度切入,賬号風控要提供 批量注冊識别,防撞庫,批量登陸識别等攻擊防護,并且能夠作為聯防聯控關鍵攻防點,此外,與會員活動中台統一對接,建立前後置業務的領取、發放閉環監控及攔截機制,做好活動風控,確定所有營銷活動都能夠得到有效保護,做好賬号分享的實時及離線識别及處置機制,同時監控市面黑市價格,及時發現攻防對抗的趨勢進行政策調整和實時風控結合,對發現的被盜号和異常分享号都制定離線發現和處置。

前端回報的使用者行為資料流是商業智能、推薦和廣告等業務所依賴的重要資料源,愛奇藝風控會結合跨業務風控資料以及使用者行為資料流進行聯合反作弊模組化,確定這些關鍵資料流的準确可信,才可以保證内容持續營運和正确決策,以及在分成模式下降低平台資損。

由于大量的自制S+綜藝引入了投票助力機制,必然會導緻各種利益方嘗試通過刷票的方式來影響結果,這個對節目制作正常流程和公平公正會帶來非常大沖擊,風控系統持續優化各環節子系統,引入第三方審計,全流程風險可控。

由于允許使用者上傳音視訊,釋出圖文内容,就會有黑産嘗試通過釋出大量低品質甚至侵權的内容,試圖通過平台分發來獲得更多流量和分成來獲利,更有黑産嘗試通過釋出不良内容來為不法行為導流,嚴重危害平台安全,愛奇藝風控和稽核系統密切配合,成為機器稽核的關鍵一環,風控會綜合結合使用者信譽、裝置信譽、情報、欺詐特征、行為分析、圖關聯、人機識别、稽核特征等多種特征進行綜合建構行為式反垃圾風控解決方案,識别各種異常上傳和釋出行為,設定風險等級,并且和稽核系統組成雙向閉環,通過風險級别來調整其他稽核環節的稽核優先級和力度,確定在攻擊下的高效稽核,同時通過鑒白和智能驗證等多種能力對沖風險,來降低對好使用者上傳體驗的打擾。

此外,對于内容平台而言,保護内容生态,尤其是保護平台上的優質内容尤為重要,防止這部分内容的洩露、盜播、盜鍊,除了做好媒資檔案保護,防盜鍊前後端加強,終端DRM溯源等方案以外,風控會納入到前端加強,安全簽名,WAF前置處置和風控業務側處置的全鍊路反爬蟲方案中,通過離線資料分析,會發現識别盜鍊團夥使用的物料等進行監控發現和處置。

小步慢走,風控體系建設9步

從愛奇藝的實踐中,可以看到風控的目标驅動力、業務安全風控架構、内容平台風控難點所在等。而具體如何落地?風控建設處于不同階段的企業“可以根據能力建設的分階段來提升”。盧明樊給出了風控建設的9個階段:

1.識别和管控風險:

風控要擁抱業務,和安全以及業務一起在企業内部梳理出哪些業務是高風險的,并且和業務方一起識别出關鍵風險場景,并且确定目前防禦現狀,根據二八原則,風控系統要優先解決重要業務及其核心場景的頭部風險。後續可以推動安全SDL或者項目評審相關的流程中将業務風險評估作為一個重要環節,確定業務風險充分識别可以及時對接風控。

2.系統快速建構

如果業務單一,場景比較簡單,可以和業務服務結合進行建構或者使用開源或者第三方商業解決方案進行快速開箱建構,如果業務多場景複雜而且邏輯多變的情況,應該考慮設計獨立的全棧風控系統,實作方式可以基于企業的自身基礎服務設施(雲計算、大資料、人工智能領域)能力,綜合結合商業、開源、自研的解決方案來實施風控系統不同環節的實作。

3.優化引擎服務

風控系統對接支援業務後,應當充分考慮如何優化風控系統的服務架構,確定實時風控服務的低延遲低熔斷,既要做到保證業務服務不會因為風控服務增加延遲,進而導緻業務服務品質下降或者過多資源占用,也需要避免風控服務因為逾時熔斷導緻政策被迫失效而讓黑産得手;同時也要持續優化緩存、流式、離線等資料鍊路,保證資料分析、名額和特征産出、實時查詢的穩定性和可靠性,能及時發現異常并且随着資料規模擴大進行快速擴充。這裡需要設定引擎服務的服務名額,對各引擎子元件持續優化,如果原來使用的開源引擎不能滿足服務能力則必要時進行自研改進,愛奇藝風控的引擎就已經經過了兩個大版本的疊代改進,確定服務的可靠穩定和優異性能。

4、實作資料驅動

從實時風控日志、業務服務日志、業務資料、情報資料、前端采集資料、驗證資料、客訴資料等多重資料源出發,進行資料清洗、名額統計和特征工程,通過流式和離線的資料統計、分析和可持續訓練優化的算法模型推理,産出名額、标簽、特征、名單、信譽、圖譜關系以及模型,上浮到穩定可靠&大容量的高速緩存,風控引擎從高速緩存中擷取資料進行政策判斷。企業的大資料平台的能力越強,則對風控系統賦能就越強。此外,需要非常關注資料品質,以及資料的連續産出,例如情報建設是資料建設關鍵一環,高品質的威脅情報往往可以在對抗中達到事半功倍的效果,又例如各種大資料的任務必須有相應的監控和高可用設計,確定資料的完整可用。

5.雲端協同

風控必須和端上的可信任的次元采集以及靈活多變驗證能力緊密結合在一起,端上采集裝置多元資訊形成裝置指紋,雲上風控基于裝置資訊進行僞造分析和其他惡意分析,用來進行裝置識别與鑒白鑒黑,并提供多種防護能力,大大提升對于黑産的分析識别能力,端上的多種驗證能力要将其産品化內建為統一SDK,對業務前端提供一體接入,根據雲上風控的風險級别給出靈活驗證方式,根據驗證行為和其他行為資料采集進行人機識别和是否本人的識别等。這裡可以需要和安全團隊以及終端應用研發團隊一起推動端上能力的實作和落地。

6.聯防聯控

打通資料和驗證能力後,跨業務聯防聯控成為可能,各業務聯合, 在模型,規則,資料等方面進行共享, 聯合布控協同防禦。例如: 在使用者行為鍊路上實作不同業務場景進行前置場景風險校驗和風險累積(例如 進行人機驗證,打标簽等等),後置場景進行利用前置場景的産出進行阻斷,又或者為了不讓黑産在某一個業務場景上進行持續更新對抗,可以将對抗引導到更容易處置的前置場景中。

7.智能驅動

風控不能停留在規則決策,一定要要引入算法決策能力,異常檢測、異常特征發現、人機識别、(圖)關聯分析、次元信譽等多類算法,從無監督算法和半監督算法為主,有監督算法為輔助,提高異常及作弊或欺詐特征以及風險因子的發現能力,支援快速響應,并結合案件庫支撐樣本累積推動有監督算法的訓練和優化, 此外要高度關注算法的通用性(盡可能子產品化)以及可解釋性,能夠适應或者快速遷移到不同場景等。

8.可持續營運

一定要逐漸培養政策營運相關的人員,風控本質上是支援業務進行風險營運,避免直接由風控開發或者算法來直接對接,導緻無法長期跟蹤某一個業務和場景的攻防對抗。建議業務團隊或者風控團隊培養自己的風控政策營運人員,確定政策可以持續疊代優化,另外從營運和産品角度給出更多産品、功能、能力上的需求,幫助風控系統的疊代優化。

9.中台化

随着對接的業務越來越多,業務場景越來越複雜,業務邏輯也越來越新穎或者多變,團隊在人力上就會逐漸不能支撐那麼多的業務和場景以及業務的快速疊代變化,那麼風控系統需要逐漸中台化,讓業務有更多的自助和自主能力,風險營運更加精細化,攻防對抗閉環更加高效:

(1) 标準化流程:标準化業務接入評估,應急預案,政策疊代優化評估,政策上下線和灰階等各種流程。

(2) 業務賦能: 提供自助接入,自助營運,客服對接等能力,讓業務和客服等能夠參與到風險營運中來,不讓風控營運成為瓶頸。

(3) 場景化解決方案: 風控中台應當能複用大量的通用政策、資料、特征和營運支援方案,遷移和定制化的工作會聚焦中業務特定需求上,最大程度的降低業務支援難度。

(4) 内部賦能: 提供政策、資料、模型的全生命周期的管理能力,并且需要做到高效和可持續優化。

(5) 持續監控與快速響應: 要能提供風險預警能力,及時報警,并且預警要能夠為政策優化提供依據,快速優化政策。

最後,對于不同企業而言,還需要根據實際企業規模、業務風險場景進行判斷與選擇。

對業務風險場景單一,體量小的企業來說,将能力建設委托給各種專業第三方風控服務或者開源的風控服務可能有助于更快地提升風險控制能力,而其重心應當是做好內建工作,但要注意的是如果使用第三方服務,一定要在保證使用者隐私等前提下做好第三方資料供給,同時注意做好風險預警,并和第三方一起做好政策評價,真正将風險營運納入到業務營運中來,提高黑産攻擊成本和門檻。

對業務規模大的企業,可以整合内部産品、研發、資料、算法、安全、營運多種資源和力量去實作自己全棧安全風控體系并推動風控服務中台化,達到風險中台對外賦能業務實作風險共同營運和自理,對内練好内功,提供更多的場景化解決方案,跨業務協同聯控能力,在資料,算法,系統,營運,攻防對抗做到支援更多業務更複雜多變風險場景,也可以在和産業化和技術能力強的黑産的白熱化對抗中形成優勢。

另外規模大的企業還可以考慮建構業務安全紅藍對抗的能力,模拟黑産對業務攻擊進行紅藍演練,隻有在實戰和演練對抗中磨練下來的風控系統在下一次攻擊中才能經受考驗。此外,業務風控和基礎安全一定要在威脅情報共享、整體安全風險評估、前後端安全加強、對手分析、防護體系協同等多方面進行協同配合,将業務安全依托于整體安全體系建設的基礎之上。

*本文為盧明樊本人工作經驗總結,FreeBuf僅做整理,轉載請注明來自FreeBuf.COM