天天看點

企業級資料湖最佳實踐

摘要:2021雲栖大會雲原生企業級資料湖專場,阿裡雲智能進階解決方案架構師周皓為我們帶來《企業級資料湖最佳實踐》的分享。

企業級資料湖最佳實踐
本文主要分享了資料湖的核心能力及幾個最佳實踐案例。 直播回放 >>> 以下是精彩視訊内容整理:

一、統一資料存儲,多引擎對接,運存分離

在這一節開始之前,先回顧一下資料湖幾個核心的能力:

  • 集中存儲、多種引擎對接

各種類型的資料用集中方式統一存儲在OSS,無縫對接如 EMR 等各類計算引擎,支援開源計算生态

  • 資料無需處理、直接存儲

對接多種資料輸入源,提供便捷的資料接入和資料消費通道,多種類型資料都可以按照原始産生的形态直接存儲,随需再進行處理,對比傳統數倉 schema 限制結構,更适配業務快速發展的應用場景

  • 更靈活架構、運存分離

存算分離架構帶來非常好的靈活性,通過計算與存儲解耦合提供更靈活的系統架構設計空間,讓計算、存儲資源具備更好的擴充性,充分提高資源使用率,極大降低運維管理難度、優化 TCO。這也是本文介紹案例中,客戶選擇資料湖方案的一個重要原因。

企業級資料湖最佳實踐

二、最佳實踐案例

Yeahmobi- 移動網際網路廣告實踐案例

Yeahmobi,作為一家技術驅動發展的企業國際化智能營銷服務公司,主要涉及到的就是智能營銷業務,每天的業務波動非常大。如果采用傳統的架構,勢必要按照業務的峰值準備資源,就會造成很多 CPU 資源無法得到最大化的利用。這也是許多智能營銷網際網路公司的痛點。基于此,大多企業選擇了資料湖方案。

  • 存儲與計算解耦合,讓計算資源使用量可以按照線上業務量的變化動态增減,減少常駐資源量
  • 多種不同類型計算引擎,輕松對接線上廣告各種場景所需要的分析要求
  • 通過資料湖方案,整體TCO優化達到30%,讓業務形态更具競争力

隻要将資料存儲在資料湖中,計算資源可以按照業務的變化實作動态的伸縮與建立,隻需維護一個最小的常駐計算資源就足夠了。在這種情況下,再結合兼具半托管和全托管模式的 EMR 動态伸縮計算及分析的能力,可以極大地降低運維的難度。這也是許多智能營銷公司選擇這套資料湖方案的原因。Yeahmobi 選擇這套資料湖方案後,TCO 降低了30%。

企業級資料湖最佳實踐

數禾科技-網際網路金融實踐案例

數禾科技是一家網際網路金融科技公司,因其所在行業的特性及本身的業務場景需求,對資料的安全可靠性,以及資料通路控制的細粒度都有很高的要求。數禾服務了大量内部和外部使用者,資料安全敏感,要求嚴格的資料權限隔離。其次,整個業務變化也需要非常強勁的吞吐能力來支撐計算及存儲。

其實在數禾的發展過程中,最早采用的是最常見最通用的大資料叢集建構方式既通過伺服器搭建,然而很快就發現這種方式無法跟上業務的快速發展:一是存儲成本顯著增長,一個标準的 HDFS 叢集是三個備援備份,在考慮到水位,整個檔案系統的開銷等因素後,存儲成本是顯著增加的。二是因為業務的快速擴容, 如果頻繁增加 HDFS 叢集節點,會影響業務的可用性。

基于以上原因,數禾選擇了阿裡雲資料湖方案。資料湖采用 對象存儲 OSS 作為底座,無需擔心容量的擴充或是小檔案的增加。檔案數量的快速增加會對 HDFS 叢集的 NameNode 造成比較大的壓力,但是對象存儲結構無需擔心檔案數量增加,哪怕是到萬億級的 object 的數量,也沒有任何壓力。采用了資料湖方式以後,多 bucket 切分搭配阿裡雲的 RAM 體系,可以做到非常細膩度的通路控制。再通過例如 OSS 與 EMR 在軟體層合作優化的 JindoFS 方案,能夠輸出超過 TBS 的吞吐能力,以支撐整個業務的需求,實際操作體驗超越自建HDFS。此外,通過雲上彈性資源能力,任務可以随需進行千台規模節點的彈性伸縮,達到降本增效的效果。

企業級資料湖最佳實踐

資料湖經典使用場景-冷熱資料分層

模式特點

  • 應用與業務系統的長期運作積累了大量的冷資料,不斷增長的冷資料對現有叢集的存儲空間壓力大
  • 需要解決冷資料存儲空間,同時為通路頻繁的熱資料留出性能優化空間
  • 優化冷資料的長期存儲成本,要能遠低于熱資料存儲成本,并且冷資料要能便于讀取

冷熱資料分層是資料湖的一個經典使用方式。應用與業務系統的長期運作會産生大量冷資料,對整個叢集的運維産生非常大的壓力。一方面是規模上的壓力,通用的大資料叢集裡面的伺服器架構比較同構導緻冷資料的優化的空間不大,如果通過增加高密度的或者異購的機型,在實踐中會導緻叢集運維管理難度的大幅度提升。另外一方面是在 IDC 環境中,要想快速擴容,實體叢集會受限于很多因素。這也是很多資料湖客戶從傳統的大資料叢集架構往資料湖遷移的原因。目前已經有很多客戶擁抱了資料湖,全面使用 OSS。無法一步到位的時候,客戶會先将溫資料和冷資料先沉降到 OSS。早在2016年,OSS 就已經與 Hadoop 生态充分融合,Hadoop 3.0可以直接通路 OSS,寫好的任務不用做任何修改就可以直接運作,大幅減少了遷移的難度。遷移過來之後,OSS 上的智能生命周期管理簡單地配置一個生命周期政策,就可以按照規則把冷資料進一步沉降到歸檔和冷歸檔類型中,進一步降低成本。

企業級資料湖最佳實踐

教育科技平台實踐案例

客戶價值

  • 通過 OSS 多存儲類型和資料生命周期管理,實作冷資料長期存儲的成本優化,通過雲上承載冷資料,IDC 自建叢集無需擴容,解決機房空間難題
  • 通過 OSS 資料湖的高可擴充性,有效的幫助客戶解決了大資料存儲的性能吞吐問題,規避了自建 HDFS 檔案系統在中繼資料節點的性能瓶頸
  • 客戶已經在規劃進一步通過雲上彈性資源去擴容計算資源,減小一次性資源投入

這是一個冷熱分層的實際案例。教育平台涉及到的業務場景包含各種日志的采集,通過使用的日志幫助學生改進學習。這個客戶也面臨一個問題,大量日志采集以後對于空間占用會造成非常大的壓力。客戶又是自建 IDC,很難在一段時間内就完成實體空間的擴容,是以最後選擇了資料湖方案。通過專線打通了 IDC 和阿裡雲的連接配接,使用阿裡雲的資源擴容現有 IDC ,再通過專線将線下的冷資料遷移到了資料湖中,為線下的業務騰出了空間,壓力釋放以後,空間就非常靈活了。然後進一步将很多應用日志直接入湖,通過對象存儲及多版本能力,為資料可靠性提供更多的保障,同時也使用了冷歸檔能力将溫資料進一步沉降以降低成本。入湖的資料則通過專線拉到本地計算,但是在資料湖的使用過程中,客戶想進一步使用雲上的計算資源以擴容計算能力,就無需一次性采購線下的計算伺服器,進一步降低成本。

企業級資料湖最佳實踐

全球化線上遊戲實踐案例

  • 通過日志服務,打通應用日志的采集、投遞,貫通實時計算引擎,為後續的使用者熱力圖 ,使用者軌迹,使用者登陸,線上人數統計提供資料支撐
  • 通過 OSS 資料湖承載所有日志資料的長期存儲,與離線分析引擎結合,能夠更深入對日志資料進行分析
  • 全球統一化架構部署,對于一款面向全球化的遊戲,可以保證在全球任何一個區域都可以使用相同的部署方式,簡化運維部署難度

一款全球化的遊戲一般要服務全球玩家,這就要求全球統一化架構部署以降低運維難度,而阿裡雲資料湖在全球任何一個區域都可以使用相同的部署方式,可以完全比對客戶的需求。此外,遊戲行業日志的采集非常關鍵,比如遊戲線上人數的大屏展示,就是通過采集應用伺服器的日志去做分析。針對這個客戶,我們采用了阿裡雲的日志服務,從千台萬台機器規模的應用伺服器中實時采集日志,推送到 Flink 中做實時計算,并将結果實時寫入到 ClickHouse,提供實時性的查詢。OSS 在這個場景中,作為了日志的的永久存儲。SLS 把采集的日志定期投遞到 OSS ,并且通過 OSS SDK 和一些指令行工具,直接将一些應用日志傳到 OSS ,存儲到 OSS 的日志可以進一步通過離線分析,如通過 Spark、Hive 做更大規模的分析,并将深度分析的結果再寫入到 ClickHouse,提供更多的分析查詢。

企業級資料湖最佳實踐

小鵬汽車-自動駕駛實踐案例

資料湖與各種存儲産品之間是無縫打通的。在這個自動駕駛案例中,我們提供了一套完整的從采集到存儲到分析的方案。閃電立方提供了車載的部署能力,解決了自動駕駛場景下每天采集的大量路面資料的存儲問題,采集完以後通過就近的接入點快速地存儲到 OSS 資料湖中去,解決了最後一公裡的問題,把資料上傳到 OSS 以後,可以直接使用阿裡雲的各項計算引擎,包括 EMR、MaxCompute 等對資料進行各種各樣的清洗标注和分析。CPFS 是阿裡雲上的一款支援大規模并行計算的存儲産品,它有非常高的吞吐能力,并且是 posix 語義的。OSS 資料湖與 CPFS 無縫的資料流動,使得訓練資料也能傳遞到 CPFS中,對資料 GPU 進行分析,并将最終的結果寫回到 OSS 做長期的存儲。

企業級資料湖最佳實踐

不光在網際網路領域,包括自動駕駛、高性能計算等都已經廣泛的應用資料湖。希望有更多的使用者可以在生産業務中引入阿裡雲資料湖。

⭐資料湖建構DLF 官網

https://www.aliyun.com/product/bigdata/dlf

⭐EMR 官網

https://www.aliyun.com/product/emapreduce

探讨更多資料湖相關技術問題,歡迎掃碼加入釘釘交流群!

企業級資料湖最佳實踐

繼續閱讀