在2017年5月,當優酷完成了整個Hadoop遷移MaxCompute後,優酷的計算消耗,還有儲存的消耗實際上是呈下降趨勢的,整個遷移得到了一個非常大的收益。
PPT下載下傳位址:
https://102.alibaba.com/downloadFile.do?file=1562556264473/MaxCompute%20%20v1.0.pdf為什麼采用MaxCompute?
第一個特點,簡單易用。MaxCompute有一個非常完整的鍊路,不管是從資料開發,還是資料運維,包括資料內建,資料品質的管控,還有整個資料地圖,資料安全。當年優酷從Hadoop遷到MaxCompute之後,我們最大的體會是自己不用半夜經常起來去維護叢集了,不用去跑任務了,寫一個任務,别人之前提一個需求過來,我可能要給他排幾周,而現在我可以告訴他,我給你馬上跑一下,就可以出來了。包括之前像分析師BI還要登入用戶端,寫腳本,自己寫排程,經常會說我的數今天為什麼沒出來?包括高層看的數,可能要到12點鐘才能出來。而現在基本上所有重要的資料都會在7點鐘産出,包括一些基本的業務需求,其實分析師或者産品,他們自己都可以實作了,不需要所有需求都提到資料這邊。
第二個特點,完整的生态。優酷在2017年之前是完全基于Hadoop的生态,遷到MaxCompute之後,是基于阿裡雲提供的Serverless大資料服務的生态。大家可以在開源上看到的元件,在整個的MaxCompute上都是有的,而且比開源的要更好用、更簡單。從架構圖上可以看到,我們中間是MaxCompute,左側依賴的Mysql、Hbase、ES、Redis這些都是由同步中心去做一個雙向的同步。右側會有資源管理、資源監控、資料監控,包括資料資産,還有一些資料規範。我們下層的資料輸入,包括一些集團的采集工具,再往上邊,有提供給開發人員用的DataWorks,包括一些指令行的工具;有提供給BI人員用的QuickBI及資料服務。
第三個特點,強悍的性能,MaxCompute支撐了優酷EB級的資料存儲,千億級的資料樣本分析,包括千億級的資料報表,10W級執行個體的并發、任務。這些在之前維護Hadoop的時候,是想都不敢想的。
第四個特點,資源使用的彈性。我們在2016年遷移之前,其實優酷的Hadoop叢集規模已經達到了一千多台,這個當時還是一個比較大的規模。當時我們遇到了很多問題,包括像NameNode 這種記憶體的問題,機房沒有辦法再擴容的問題,當時是非常痛苦的,包括一些運維管理上面的問題。我們不斷的去問運維要資源,運維告訴說,說你們已經花了多少多少資源,花了多少多少錢。我們面臨的問題是計算資源如何按需使用,夜裡的時候作業很多,到了下午之後,我的整個叢集都空下來了,沒有人用,造成了浪費。其實MaxCompute完美的解決了這個問題。