優酷背後的大資料秘密

2019-07-07 23:50:00

在2017年5月，當優酷完成了整個Hadoop遷移MaxCompute後，優酷的計算消耗，還有儲存的消耗實際上是呈下降趨勢的，整個遷移得到了一個非常大的收益。

PPT下載下傳位址：

https://102.alibaba.com/downloadFile.do?file=1562556264473/MaxCompute%20%20v1.0.pdf

為什麼采用MaxCompute？

第一個特點，簡單易用。MaxCompute有一個非常完整的鍊路，不管是從資料開發，還是資料運維，包括資料內建，資料品質的管控，還有整個資料地圖，資料安全。當年優酷從Hadoop遷到MaxCompute之後，我們最大的體會是自己不用半夜經常起來去維護叢集了，不用去跑任務了，寫一個任務，别人之前提一個需求過來，我可能要給他排幾周，而現在我可以告訴他，我給你馬上跑一下，就可以出來了。包括之前像分析師BI還要登入用戶端，寫腳本，自己寫排程，經常會說我的數今天為什麼沒出來？包括高層看的數，可能要到12點鐘才能出來。而現在基本上所有重要的資料都會在7點鐘産出，包括一些基本的業務需求，其實分析師或者産品，他們自己都可以實作了，不需要所有需求都提到資料這邊。

第二個特點，完整的生态。優酷在2017年之前是完全基于Hadoop的生态，遷到MaxCompute之後，是基于阿裡雲提供的Serverless大資料服務的生态。大家可以在開源上看到的元件，在整個的MaxCompute上都是有的，而且比開源的要更好用、更簡單。從架構圖上可以看到，我們中間是MaxCompute，左側依賴的Mysql、Hbase、ES、Redis這些都是由同步中心去做一個雙向的同步。右側會有資源管理、資源監控、資料監控，包括資料資産，還有一些資料規範。我們下層的資料輸入，包括一些集團的采集工具，再往上邊，有提供給開發人員用的DataWorks，包括一些指令行的工具；有提供給BI人員用的QuickBI及資料服務。

第三個特點，強悍的性能，MaxCompute支撐了優酷EB級的資料存儲，千億級的資料樣本分析，包括千億級的資料報表，10W級執行個體的并發、任務。這些在之前維護Hadoop的時候，是想都不敢想的。

第四個特點，資源使用的彈性。我們在2016年遷移之前，其實優酷的Hadoop叢集規模已經達到了一千多台，這個當時還是一個比較大的規模。當時我們遇到了很多問題，包括像NameNode 這種記憶體的問題，機房沒有辦法再擴容的問題，當時是非常痛苦的，包括一些運維管理上面的問題。我們不斷的去問運維要資源，運維告訴說，說你們已經花了多少多少資源，花了多少多少錢。我們面臨的問題是計算資源如何按需使用，夜裡的時候作業很多，到了下午之後，我的整個叢集都空下來了，沒有人用，造成了浪費。其實MaxCompute完美的解決了這個問題。

優酷背後的大資料秘密

繼續閱讀

windows開始→運作→輸入的指令集錦 winver---------檢查Windows版本 w

更改LYNC SIP位址

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

Storm編譯打包過程中遇到的一些問題及解決方法

ansible配置檔案說明及ad hoc指令

vsftpd dead but subsys locked 的解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

ubuntu14.04下安裝hbse1.0.1.1

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

User Defined Hadoop DataType

nginx 安裝錯誤資訊解決

Ambari介紹和架構原理