天天看點

微網誌機器學習平台雲上最佳實踐

**新浪微網誌資料計算平台系統架構師 曹富強

**

本文講述了微網誌機器學習平台和深度學習平台的業務功能和雲上實踐,剖析了阿裡雲大資料在微網誌這兩大學習平台的架建構設上所起到的作用。

微網誌介紹

微網誌是2008年上線的,中國頭部、流行的社交媒體平台,提供人們線上創作、分享和發現優質内容的服務,微網誌的大規模機器學習平台可支援千億級參數、百萬QPS調用。目前微網誌的日活是2.22億,月活是5.16億。

微網誌機器學習平台(WML)優勢

微網誌機器學習平台的特點是樣本規模大,百億級樣本,實時性比較高,是分鐘級,然後模型規模是百億級,模型實時性根據不同場景有小時級、分鐘級和秒級。作業的穩定性的話要求是三個9,平台業務多,場景豐富疊代快。

微網誌機器學習平台(WML)CTR模型

微網誌機器學習平台雲上最佳實踐

微網誌機器學習平台的CTR模型經過數字版本的疊代,從1.0的離線機器學習到3.0的離線和深度,到5.0的線上機器學習、離線機器學習和深度機器學習結合。再到目前我們是往線上深度學習方向發展。總體來說經過曆史疊代,目前支撐的參數規模達千億級,服務峰值達百萬QPS,模型更新是10分鐘量級。

微網誌機器學習平台(WML)架構

微網誌機器學習平台雲上最佳實踐

我們看一下微網誌機器學習平台的架構,微網誌機器學習平台為CTR、多媒體等各類機器學習和深度學習算法,提供從樣本處理、模型訓練、服務部署到模型預估的一站式服務。總體的話是基于線上計算叢集,離線計算叢集和高性能計算叢集。我們通過資源的WeiBox排程架構和WeiFlow工作流引擎,計算平台的話是WeiLearn架構內建的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了諸多豐富的算法。基于這些算法,訓練的模型,我們入到我們WeiPS模型庫,然後通過WeiServing對外提供線上推理服務。

微網誌機器學習在阿裡雲上實踐

微網誌機器學習平台雲上最佳實踐

我們的阿裡雲上實踐使用了Flink、MaxCompute、Alink、PAI。基于這些服務提供了熱門微網誌、Feed流、綠洲推薦,使用MaxCompute實作在相同規模下萬億樣本百億特征全量訓練,比Hadoop叢集提升10倍。支援從天級到分鐘級的實時熱門微網誌、Feed流業務推薦及搜尋樣本實施訓練、上線,業務推薦效果提升10%。基于Flink搭建了實時計算平台,內建了作業送出端UI/WeiClient、作業管理、資源管理、日志系統、監控報警系統等各鍊路,作業規模上千。整體來說阿裡雲建設機器學習有幾大優勢:支援大規模處理、算法豐富、平台成熟運維友善、投入時間直接聚焦到業務。

微網誌深度學習平台(WDL)典型業務場景

微網誌機器學習平台雲上最佳實踐

接下來介紹微網誌深度學習相關的業務,目前的話在微網誌的關系流、綠洲、新浪視訊推薦、正文推薦流裡面都有深度學習的應用。

微網誌深度學習平台(WDL)架構

微網誌機器學習平台雲上最佳實踐

基于線上gpu的機器,我們通過K8s和Yarn管理,然後通過WeiArena和el-submit送出任務。我們的WeiLearn內建了TensorFlow、Pytorch引擎,然後內建了樣本庫讀取和輸出的模型庫。然後WeiServing加載了模型庫,對外提供兩路服務,一個是通過AI服務直接對外提供AI輸出能力,另外就是我們的計算服務WeiStorm,內建了資料流,調用WeiServing RPC服務架構,實時生成多媒體特征,對外提供線上服務推理。

微網誌深度學習平台(WDL)多媒體特征生成

微網誌機器學習平台雲上最佳實踐

微網誌機器學習深度平台多媒體特征的生成,隻有兩條鍊路,第一路是離線的訓練,離線訓練模型通過資料源的處理輸出到樣本庫,然後通過我們WeiServing分布式訓練模型調用,輸出到模型庫,這一路的話是一鍵CICD、分布式訓練、支援多種類的模型。另一路是線上推理,線上推理的話消費多媒體實時資料流,調用我們的WeiServingRPC架構,輸出多媒體特征,然後應用到業務,這條鍊路的話,我們通過對賬系統、case追蹤、全鍊路監控去做服務保障,成功率是99.99%,延時是秒級延時。開發模式是通過UI化、配置化、一鍵部署。

微網誌深度學習平台(WDL)基本功能

微網誌機器學習平台雲上最佳實踐

微網誌深度學習平台産品功能的話,一個是樣本庫,然後分布式訓練,模型庫,線上推理服務和計算服務。樣本庫的話主要是包含樣本資料管理和樣本分布式存儲,對在各節點上零散的樣本進行統一管理;分布式訓練的話,内置常用深度學習算法并持續新增成熟的算法,規範樣本讀取,訓練gpu叢集的靈活排程和訓練模型的統一存儲;模型庫的話提供分布式系統和本地兩種存儲方式,為線上推理服務提供模型;線上推理服務,支援Python和C++模型的一鍵部署,實作模型推理的服務化以及監控、告警等。可封裝為HTTP服務,對外直接提供AI的能力,實作AI能力的直接輸出;計算服務,基于内部的多媒體分發系統,接入多媒體資料流,調用線上推理服務,實時生成多媒體特征。

微網誌深度學習平台(WDL)業務實踐

微網誌機器學習平台雲上最佳實踐

微網誌深度學習平台業務實踐,早期的話基于單機訓練處理大規模資料時訓練周期長,疊代慢,影響業務效果。 于是我們提供了多媒體深度學習服務方案,微網誌深度學習平台就應運而生,實作了樣本存儲、離線訓練、線上推理及模型存儲一體化功能。最終産生的效果和業務價值是:分布式訓練極大縮短了訓練時間,為快速業務疊代提供良好基礎;一體化服務讓我們隻需要專注于模型算法優化,提高業務效率,整體上為業務賦能和業務承建産生了巨大的推動力。

謝謝大家!

更多大資料客戶實戰案例:

https://developer.aliyun.com/article/772449

首月199元開通DataWorks專業版+MaxCompute按量付費黃金搭檔:

https://dw-common-buy.data.aliyun.com/promc

繼續閱讀