天天看點

看雲栖說雲栖—— 大資料技術

打造網際網路資料分享的第一平台。

—— 阿裡雲早期口号

本文内容取自2019杭州雲栖大會《大資料技術專場》。

企業使用者選擇阿裡雲的理由有很多,假如在其中隻選一個最重要的,那麼我覺得十有八九就是看中了阿裡雲在“大資料”方面的能力。在國内網際網路巨頭中,阿裡雲的大資料應用的最早、最深、最廣,這直接反映在今天阿裡雲的大資料産品服務上、反映在阿裡雲栖大會的場次安排上,除了這次要分享的大資料技術分會場,還有《大資料生态專場》、《大資料企業服務專場》、《智能資料中台專場》、《大資料與AI峰會》等專場後續再聊。

《大資料技術專場》的主旋律是阿裡雲自研的大資料核心技術平台的進展和展望。

看雲栖說雲栖—— 大資料技術

(圖檔來自雲栖社群)

  • 阿裡巴巴的大資料平台建設之路起步于2002年,到2006年已經擁有了當時亞洲最大的Oracle 叢集,卻依然無法很好的支撐業務發展。
  • 是以在2008年阿裡巴巴開始轉向開源的大資料平台Hadoop。
  • 到2009年阿裡雲成立并啟動了自研的大資料平台ODPS(後改名為MaxCompute)的研發。到2010年MaxCompute1.0釋出、2017年MaxCompute2.0釋出、2019年MaxCompute3.0釋出。

阿裡雲大資料的發展方向包括四個方面:

看雲栖說雲栖—— 大資料技術

(上圖來自雲栖社群)

  • 效率與成本、通過提升核心引擎的效率、存儲的優化、利用雲原生技術對接大資料管理與治理能力來幫助客戶提升大資料處理效率,降低成本。
  • 企業級服務、提供自動化的資料災備能力,提高資料安全性,提供統一豐富的計算能力和配套的開發平台,提供企業級的資料管理、協同、共享機制。
  • 生态與标準、阿裡雲的大資料平台将更加開放、更加擁抱标準和開源生态。
  • 智能化、進一步提高核心引擎的智能化能力,讓大資料平台具備自動駕駛的能力。

首先是效率方面,大資料處理的效率不夠高就能帶來風險。通過對阿裡雲的上百家客戶的調研,阿裡雲總結出了一張風險曲線圖:

看雲栖說雲栖—— 大資料技術

以下是我的個人了解,不代表阿裡雲觀點:

黃色曲線是大資料平台相關業務的發展,藍色曲線是平台的風險。藍色曲線有兩條,上面一條是采用定制化方案的曲線,下面是采用阿裡雲大資料平台的曲線。

随着相關業務的發展,定制化的大資料平台一般啟動後的一年左右會進入高風險階段,彼時的系統成本、性能、資料安全、分析效率等方面的沖突将聚集爆發,假如不對大資料平台進行及時的治理和優化極易導緻項目夭折。而到兩年左右又會出現一個新的風險,那就是随着人員的流動,定制化系統将變成無法維護的黑盒系統,沒有人能夠很好的繼續運維和開發。

采用阿裡雲大資料平台風險曲線則相對平緩。例如業務增加5倍,而大資料平台的成本增加可能隻有1倍,大資料平台不會因為業務的增長而變成成本中心,例如阿裡巴巴的小貸業務就是一個平衡業務價值和計算成本的最好的案例。阿裡雲大資料平台有阿裡雲提供服務也不會發生因為人員流動而變得無法維護,定制化方案則因為引入了大量的開源元件而導緻在人員流失後的接手人員難于維護。

什麼是企業級的大資料平台,阿裡雲給出的答案包括四個部分:

  • 可靠的資料底盤、就是為企業的資料資産提供萬無一失的保障。将安全落實到存儲、運算、管理、運維的每一層。
  • 容災、通過标準化硬體降低容災中心的建設成本,通過自助運維降低了容災系統的運維難度。
  • 資料管理、共享和安全、通過基于資料血緣的的分析和報表加強對資料的管理、通過細粒度的強制通路控制、資料加密來保障敏感資料的機密性。
  • 排程能力、具備超大規模的統一排程能力,包括系統性能基線保證能力、超賣能力、線上和離線業務的混步排程管理能力。

在生态方面,阿裡雲大資料平台MaxCompute開放聯合計算能力,通過連接配接異構資料源實作計算下推的邏輯資料湖,支援EMR Hadoop全家桶、向上對接各種主流的工具和産品包括JDBC、Tableau等。

看雲栖說雲栖—— 大資料技術

在智能數倉建設上,阿裡雲将在效率優化、資源規劃、智能模組化三個方面進行優化。

看雲栖說雲栖—— 大資料技術

在大資料技術專場的最後介紹了阿裡雲剛釋出的秒級實時數倉産品。

之前介紹過的ADB(分析型資料)都是實時數倉,但這個“實時”的定位卻不同,這裡的實時更多的是對接到消息隊列、DataHub或者Flink等實時計算引擎,ADB對接的更多還是批量資料導入的場景。

在阿裡雲首頁上,有關互動式分析的介紹是這樣的:

互動式分析(Interactive Analytics)是一款相容PostgreSQL協定的實時互動式分析産品。互動式分析與大資料生态無縫打通,支援對PB級資料進行高并發、低延時的分析處理,讓您輕松而經濟地使用現有BI工具對資料進行多元分析透視和業務探索。

互動式分析的突出優勢有四點:

  • PB級資料亞秒級響應,滿足多元分析透視和業務探索的需求。
  • 億級TPS寫入查詢,寫入即可查詢。
  • 存儲和計算分離,支援更自由的擴縮容。
  • 多副本技術保障資料絕對安全。

我覺得這裡應該重點強調的就是支援億級TPS的寫入性能,并且寫入的資料立刻可查。

以下是互動式分析的架構圖:

看雲栖說雲栖—— 大資料技術

可以看到互動式分析可以直接對接tableau、QuickBI、DataV、DataWorks等前端大資料分析産品。後端與MaxCompute大資料平台實作資料、資源互通。

互動式分析同時具備流處理系統的低延時能力和批處理的複雜精确查詢能力,有了互動式分析就用不着費勁去搭建Lambda架構就能同時支援實時流資料分析和複雜精确查詢的需求,一套系統就能實作流批一體的統一數倉。

我覺得互動式分析這個産品潛力巨大。

繼續閱讀