天天看點

資料流被污染?資料品質不高?螞蟻金服資料資産管理平台了解一下一、資料治理概況二、資料品質治理的挑戰三、資料品質治理實踐

今年年初,螞蟻金服ATEC城市峰會在上海舉辦。金融智能專場分論壇上,螞蟻金服資料平台部進階資料技術專家李俊華做了主題為《螞蟻金服資料治理之資料品質治理實踐》的精彩分享。

演講中,李俊華介紹了螞蟻金服資料架構體系的免疫系統——資料品質治理體系,此外還着重介紹了資料品質實施的相關内容,以及螞蟻的資料品質治理實踐與所面對的實際挑戰。

資料流被污染?資料品質不高?螞蟻金服資料資産管理平台了解一下一、資料治理概況二、資料品質治理的挑戰三、資料品質治理實踐
螞蟻金服資料平台部進階資料技術專家李俊華

一、資料治理概況

近年來,螞蟻金服不斷在資料架構上進行更新改造,其目的在于解決螞蟻所面臨的資料實體孤島問題。如今,螞蟻以及整個阿裡巴巴集團的底座都統一到了同一個平台上,這樣當實作第五代資料架構體系更新時,就降低了一站式研發的整體門檻,并使得螞蟻金服的所有工程師都可以在平台上輕松玩轉資料。如今,在螞蟻的資料架構中已經能夠很好地解決資料孤島問題,而如今在資料治理體系中所需要關注的就是邏輯的孤島。

資料流被污染?資料品質不高?螞蟻金服資料資産管理平台了解一下一、資料治理概況二、資料品質治理的挑戰三、資料品質治理實踐

在對資料治理展開論述之前,先談一談資料價值。

之前的情況是,當資料首先需要經過專門團隊負責處理,删除沒有價值的資料,負責上線或者下線資料。但是,對于資料價值的判斷也是一個非常令人頭疼的問題,大部分的資料隻會上線不會下線,這樣就造成了大量沒有價值的資料的堆積。而如今,螞蟻不僅關心下線沒有價值的資料,同時也側重資料資産的價值最大化。

在資料價值方面,螞蟻有一套完整的資料資産等級以及資料資産的易用模型,這樣就能夠驅動自身充分利用資料資産,來創造更多的價值。但是如果這些資料被使用了,但是品質卻很低,這樣就會使得資料資産的價值大打折扣。

資料品質産生分析

接下來将重點介紹螞蟻金服在資料治理品質領域的實踐思路和方案,并與大家分享兩個案例。如下圖所示的是抽象資料抽取的全流程圖。

資料流被污染?資料品質不高?螞蟻金服資料資産管理平台了解一下一、資料治理概況二、資料品質治理的挑戰三、資料品質治理實踐

當某個業務同學錄入資料的時候出現一點錯誤,就會造成資料的品質問題,比如把客戶的行業資訊填錯或者打錯了一個字都會造成資料品質問題,而這樣的問題很容易出現。

在基于傳統資料庫資産開發資料應用的時候,基本都是從資料源端産資料過來,經過加工、分析再将資料發送出去,也就是“從業務中來,最後回到業務中去”。現在的方案與之前存在很大差別,以前做資料處理時,從資料生産的采集資料來,加工之後就給出去了,而如今螞蟻很多資料應用将資料處理之後還會回到資料系統中。比如芝麻信用分的計算中存在很多大家看不到的場景,這些資料處理之後還會回到系統之中,而這個過程中每個環節都可能存在資料品質問題。

二、資料品質治理的挑戰

在下圖中的左側展示了螞蟻的業務形态。

資料流被污染?資料品質不高?螞蟻金服資料資産管理平台了解一下一、資料治理概況二、資料品質治理的挑戰三、資料品質治理實踐

如今,螞蟻的業務場景已經不再僅限于統計分析,而在螞蟻的芝麻分、花呗、借呗以及“310”放款的背後都是資料在進行支撐并驅動着其發展。今天,螞蟻的業務形态成為了“技術+資料+算法”三者的融合來追求價值最大化。與此同時,資料品質治理也存在着諸多挑戰,它們來自于業務方面、資料方面、使用者方面。

三、資料品質治理實踐

資料品質治理思路

從事金融業務的同學往往深有感觸,網際網路金融時代業務的生命周期縮短了很多,并且變化也非常頻繁,相比于原本銀行的節奏顯得非常快。

此外,目前無論是螞蟻金服還是阿裡巴巴都在談“資料業務化、業務資料化”,資料和業務一同共同發展和前進,并且已經進入了發展的深水區。之前的幾年,螞蟻在業務上偏向于“T+1”,而如今,原來的架構體系不足以支撐螞蟻未來繼續發展以及高時效性的訴求。同時,如今螞蟻的資料體量很大,而資料業務也驅動螞蟻的整個人才體系的更新。現在,除了本身做資料算法研發的同學之外,其他的技術同學也都會在平台上使用資料,這些同學可能對于資料的認知不同,那麼在資料驅動下真正保證資料品質就顯得異常重要。

那麼如何實作資料品質治理呢?

首先,需要有一套明确的組織,這是持續建設企業文化的土壤,而資料品質治理文化的建設一定是一個确定的、有組織的并且需要長期持續推進的事情。在組織保障和品質文化的基礎之上,螞蟻還側重了研發流和資料流。在金融領域,研發流的管控更嚴格,也更嚴謹。而對于如今的網際網路金融而言,也需要進行強管控,這是因為業務形态決定了研發周期很短,現在螞蟻在研發流做了強管控,在一站式資料研發平台上,使用了分級管控。需求提出之後就會被等級管理,并且進行打标,進而走入不同流程。此外,研發流上還側重分級管控,在同一套标準上定義級别,拉平不同的研發流。對于資料流而言,當一個應用釋出到生産環境之後,大部分精力花費在資料流中,每天需要從生産環境将資料采集到處理平台,然後運作算法計算,之後将資料傳回到生産環境中,走這樣的閉環。

如今,螞蟻在資料流鍊路上做了很多事情,也建設了很多能力。對于資料流而言,如果源頭被污染了,如果不能控制其污染到下遊,那麼越往下修複成本就越大。

資料流被污染?資料品質不高?螞蟻金服資料資産管理平台了解一下一、資料治理概況二、資料品質治理的挑戰三、資料品質治理實踐

基于以上的資料品質治理思路,螞蟻金服做了很多有意思的東西,在資料平台運作時會将整個體系監控起來,如果出現資料品質故障,就能夠及時進行修複。

此外,從研發到生産的各個環節,螞蟻都做了大量的工作,這是因為基于平台進行資料研發的同學很多,需要盡量降低使用門檻。對于全資料流而言,主要建設了四大能力,包括感覺能力、識别能力、智愈能力和營運能力。

平台需要能夠感覺釋出任務的故障問題以及資料品質問題,此外,平台需要能夠識别出潛在風險,因為需要非常及時地了解被破壞的資料。當風險被識别出來之後,就需要智愈能力,之是以使用“智”,是因為原本資料處理任務往往是離線的,可能從淩晨開始到早上8點鐘左右屬于資料生産高峰,在這段時間裡會有人員參與品質保障任務。而智愈能力就希望通過AI算法來配合資料處理工作,使得感覺能力疊加算法能力,能夠對于資料感染進行自愈。

最後是營運能力,資料品質不會被展現在前台,如果資料品質足夠好,完全可以實作無感覺,使用者不用再擔心資料能不能用,也不會出現敢不敢用的疑惑,是以資料品質對于營運而言也非常重要。其實,資料品質問題既不僅屬于研發也不僅屬于業務,而是需要全員參與,共同來解決,這就是資料治理的思路。

螞蟻資料品質治理架構

如下圖所示的是螞蟻金服的資料品質治理架構體系。

資料流被污染?資料品質不高?螞蟻金服資料資産管理平台了解一下一、資料治理概況二、資料品質治理的挑戰三、資料品質治理實踐

在系統層,按照上述所談到的具體思路,研發階段主要集中在資料測試、釋出管控以及變更管理等方面的建設,這裡着重提及變更問題,資料的變更不僅僅設計到系統層的變更管理,也會涉及到線上系統的互相打通。如今,線上資料源的變更,也會使得資料營運發生變更,更可能會導緻資料營運的資料品質問題。

線上研發部分為資料營運系統提供了一些相關的接口,能夠通知使用者線上的哪些變更會影響到資料營運。對于釋出管控能力而言,螞蟻投入了大量精力進行研發。目前在螞蟻已經沒有專職負責資料測試的同學,基本上全部都是全棧工程師,是以對于研發而言可能管控不是非常強,但卻實作了強大的釋出管控能力,将與經驗、規範、性能以及品質相關的檢測全部在這部分執行。

在生産階段,則主要側重于品質監控、應急演練以及品質治理這三個系統能力。品質監控告警系統能力在大部分的資料系統架構中應該都有,其功能類似于汽車的刹車功能,是以肯定是存在的。而螞蟻卻做了一件很有意思的事情——資料攻防演練,工程師會人為創造故障,然後測試系統能否在短時間内發現故障并進行有效修複,這部分也是目前螞蟻在重點進行建設的能力。在品質治理部分,會根據不同應用的級别,釋出到生産環境之後進行定期巡檢,分析是否會影響資料品質。總之,對于資料品質架構體系的系統層而言,不僅原資料非常重要,如今更是結合機器學習來自動配置一些相關政策。

資料品質治理方案

如下圖所示的是螞蟻金服在實踐中的事前、事中、事後的資料品質品質方案。

資料流被污染?資料品質不高?螞蟻金服資料資産管理平台了解一下一、資料治理概況二、資料品質治理的挑戰三、資料品質治理實踐

整體而言,事前包括需求、研發、和預發三個階段,而如今螞蟻在事前可以做到的可管控、可仿真、可灰階。在事中,監控問題是重點建設的,出現問題不可怕,但是需要實作自主發現問題。而為了使得防禦能力更強,螞蟻實作了主動的攻擊演練,而正是通過攻防演練,幫助螞蟻發現了自身很多薄弱的地方。除此之外,還在事中提供了強大的應急能力,某些事件将會觸發應急預案,在這部分,保證資料品質其實就是把不确定的資料風險變成确定的東西。在事後,資料品質也非常重要,事後需要通過有效的名額和管控手段來進行審計和度量,以此發現整個鍊路上不完善的地方并持續完善。

資料品質治理案例

最後為大家分享螞蟻金服在資料品質治理方面的兩個案例:

案例1:在螞蟻資料治理架構體系下的釋出環節,實作了一個釋出強管控的流程。任何腳本在送出時都需要經過檢測,然後釋出到線上,并再進行一次檢測。

案例2:資料治理涉及到整個鍊路,而針對不同鍊路上的資料版本,資料采集主要是将資料從一端搬運到另一端,不存在加工的過程,此時可以人為注入一些故障,分析資料品質治理體系能否發現問題并作出修改,是以這就産生了“攻”與“防”雙方。資料加工處理又另外一套體系結構,其涉及邏輯的加工,更多地需要考慮注入怎樣的故障,需要面臨什麼。如今,在螞蟻真正落地資料品質治理體系的時候,在攻防演練環節投入了大量精力。

螞蟻金服資料資産管理平台:

https://tech.antfin.com/products/NOMO?chInfo=zx

繼續閱讀