天天看點

趣店大資料平台架構

作者:閃念基因

趣店大資料平台架構

趣店大資料平台作為集團資料業務的技術支撐,為集團提供從采集、模組化、存儲、分析到智能應用的全流程資料驅動解決方案,最終以資料服務對接到業務系統或者資料産品驅動業務決策和産品智能。

1

什麼是資料平台

大資料平台通過對業務資料進行采集、加工、管理、服務化,再反哺到業務,其實是一種理念,強調的是一種複用能力。當企業需要資料化轉型、精細化營運,或者當業務需求和資料規模達到一定量級的時候,就需要建設資料平台,它是高品質、高效賦能業務前台的一系列資料系統和服務的組合。

趣店大資料平台架構

打個比方,當我一家人要吃飯,我自己買菜,在自己的廚房用普通的廚具自己做就好了; 如果是富士康,幾萬幾十萬人吃飯,就需要建食材的加工配送中心,集中提供餐飲服務。本質上是“需求規模量級的變化,導緻解決方案的質變”。說到這裡,怎麼聽起來像資料中台?其實名稱定義并不重要,我們要做的僅僅是把資料的服務做的更好(Data as a service)。

2

資料平台解決什麼需求

企業角度

服務:服務穩定、功能健全、資料高品質。

效率:執行更高效,業務更實時。

成本:支撐資料業務的高速發展的同時,盡可能控制成本的增長。

安全:通路安全、存儲安全、資料合規。

技術角度

元件化:功能齊全,完善的大資料元件及資料應用,滿足海量資料存儲計算需求。

平台化:服務抽象、資料共享、自助開放、分析決策。

3

資料平台建設落地過程中有哪些挑戰

趣店大資料平台架構

服務穩定

保障服務穩定是所有進行生産活動的前提,我們基于hadoop生态建構了一個低成本、高可靠、高擴充、高有效、高容錯的資料平台,從資料接入 -> 資料交換-> 資料轉換 -> 資料分析-> 資料可視化,實作全鍊路服務與資料監控,以及分布式存儲計算、容災備份、彈性伸縮、資料解耦等服務保障目标。

趣店大資料平台架構

成本控制

資料平台不像業務前台直接對接一線業務,與業務KPI直接挂鈎,平台在老闆眼裡往往是個非常大的成本中心,如何将資料平台由成本中心變成利潤中心,成為平台建設的一個核心方向。我們持續在性能調優、技術選型、伸縮架構、業務評估等措施上進行成本控制,有效解決業務發展需求與存儲計算成本增長的沖突。

趣店大資料平台架構

效率提升

協作效率,舉個營運人員取數的例子,需求執行路徑如下:營運人員 -> 分析師 -> 數倉團隊 -> 平台團隊,可見這樣的效率是極其低下的。針對這種多層級的資料需求,我們針對不同團隊提供不同的資料應用服務,實作了團隊間配合更扁平、研發和分析效率更高的目的。

開發效率,從平台發展的各階段實踐中,我們發現,對于一個統計任務/算法任務/風控任務,如果采用傳統的程式設計思維方式去實作,那麼隻能通過堆開發人員,去做大量的開發、疊代和維護工作,一個任務可能會花一天甚至幾天的時間才能完成,對于一天幾十甚至幾百個任務需求來說,一個SQL僅僅隻需要幾分鐘的開發時間(以我廠為例,每日2.5萬+個例行任務和臨時任務)。我們做到了全平台SQL化,用SQL思維取代程式設計思維,降低平台使用門檻,大大解放上層業務開發團隊。

資料治理

作為金融行業大資料平台,對資料安全及資料品質的要求标準遠比其他行業高,我們緻力于梳理資料标準、建構資料安全和隐私規範,圍繞業務場景解決資料品質和安全問題。

資料品質措施:對資料從計劃、擷取、存儲、共享、維護、應用、消亡生命周期的每個階段裡可能引發的各類資料品質問題,進行識别、度量、監控、預警等一系列管理活動,圍繞完整性、準确性、合理性、一緻性、及時性監控分析資料品質問題,提升企業資料品質。

資料安全措施:針對系統級、應用級、網絡級,提供合理的安全手段和措施,建立完善的權限控制、通路審計、資料脫敏機制,確定企業内部資訊的安全。

趣店大資料平台架構

4

趣店大資料平台長啥樣

資料規模:PB級熱資料,每日處理2.5萬+任務。

架構圖如下:

趣店大資料平台架構

基礎服務

基礎服務包括資料采集、資料工廠、資料治理、資料服務等核心環節。按照功能劃分資料區,設計資料模型,在統一流程排程下,整合各類資料,同現有的企業級資料倉庫和曆史資料存儲系統一起,形成基礎資料體系,提供支撐經營管理的各類資料應用,支撐上層應用。以下是趣店大資料主要的基礎服務:

趣店大資料平台架構
趣店大資料平台架構

大資料基礎設施

趣店大資料平台架構
趣店大資料平台架構
趣店大資料平台架構

監控平台

趣店大資料平台架構

5

資料倉庫如何建構

趣店大資料平台架構

原始層

原始層資料,包括app埋點、服務端日志,以及業務DB資料同步等,其中,可以實時對Binlog的處理(庫級别或者執行個體級别),使用者可以按需自行配置,最終可落到HDFS和KUDU系統中。

倉庫層

倉庫層是趣店核心資料服務,包括資料清洗、歸一化處理、資料枚舉确認,以及資料融合體系、資料轉化體系、資料标簽體系,業務邏輯4大體系。

應用層

應用層直接面向應用,有高度彙總資料和使用者明細資料以及使用者标簽等資料,服務于趣店報表平台,風控A、B、C卡模型分,營銷、催收、智能推薦系統以及多元分析等各大業務場景。

以上便是趣店大資料平台的整體介紹,後續我們将逐個對大資料分層架構進行技術拆解和分析,歡迎有興趣的同學關注。

作者:林慶敏

來源-微信公衆号:趣店技術團隊

出處:https://mp.weixin.qq.com/s/OCEUS1v0844nVL4V01lPIA

繼續閱讀