在雲栖計算之旅第5期——大資料與人工智能大會上,阿裡雲大資料事業部數加平台技術負責人陳廷梁從數加定義、起源、願景、價值、架構、規劃六個方面分享了《數加平台——阿裡大資料os實踐》。其中,他主要介紹了數加平台的演進過程和阿裡大資料os的架構。
以下内容根據視訊整理而成。
<b>視訊回顧:點此進入</b>
<b>pdf下載下傳:點此進入</b>

在阿裡雲的官網打開大資料部分(整個大資料部分統稱為數加),其中包括:大資料基礎服務部分,maxcompute、ads、流計算、大資料開發套件;人工智能部分,機器學習(基礎平台是pai)、語音識别、et等;資料分析展現部分,資料可視化(大屏、bi報表)、i+關系網絡分析(安全領域用的比較多);資料應用部分,推薦引擎(提供面向終端使用者的服務,以大資料中間件存在)等。天池比賽也是基于數加平台,數加資料市場相當于大資料的app store。
數加是什麼?數加=數加平台+數加市場+數加應用。平台相當于os部分,其上有app store(即市場),市場上有大量的應用(包括官方應用和第三方應用)。數加平台基于阿裡十幾年在大資料上的經驗積累,在對内的平台base上做了一個對外的執行個體即數加。數加平台除了base,還包括多租戶、賬号、權限、安全、meta、計量計費、open api、資料市場、數加網站等子產品,也包括算法平台pai。
數加平台=大資料os=大資料的ios。大資料os希望提供高度內建的大資料平台,将計算引擎、資料開發工具、資料采集和傳輸工具、資料分析工具、機器學習平台無縫內建,提供端到端的一站式使用者體驗;提供雲數倉服務(對标redshift),革傳統資料倉庫的命,讓基于hadoop自建資料平台成為往事,讓客戶專注于業務系統開發,把使用者資料還給使用者,提供安全隔離的租戶空間;是開放的大資料os,相容開源資料生态,支援各種第三方資料應用在上面安裝使用;支援資料交換和分享,讓使用者安全,可計量的使用他方資料。
大資料生态中,數加平台最底層是計算平台,還包括一系列支撐平台、資料開發和算法開發,對外提供大資料的基本職能是sql開發(是web界面,友善易用)、mapreduce開發、算法開發(pai)。open api層可與外部應用打通。數加資料市場中,包括資料服務(包括api服務)、資料應用(基于整個資料開發平台,以及資料api等各種東西)。
上圖中,下面是數加平台,核心的東西是資料開發、資料分析、應用平台,上面是各個領域的應用。
很早以前,阿裡很多的bo用的都是ioe,其存儲昂貴、可擴充性差。阿裡各個分支有不同的嘗試,b2b、支付寶嘗試的是greenplum,淘寶選擇了hadoop。此時産生了資料孤島問題,各業務部門的資料散落在多個叢集,彼此之間資料不通,資料共享太難,缺少權限安全的管理。是以需要做資料倉庫來把資料集中在統一的一個平台來管理。資料共享的問題解決之後,由于資料不集中,也沒有較好的資料倉庫規劃,導緻資料被拖來拖去、重複存儲和計算,出現了重複建設的問題。
eb級的資料算不算得動?
百萬張表如何管理?
資料品質之殇?
大集中的資料如何確定安全?
在hadoop的基礎上,做了統一的自主可控的大資料平台,其特點是:<b>統一平台,資料大集中,</b>統一的存儲,統一的計算平台,統一的資料開發平台,統一的中繼資料又會涉及到資料治理;<b>資源共享,彈性配置設定,</b>基于odps多叢集技術,由數以萬計的伺服器提供超級計算能力,按需彈性配置設定給各資料開發團隊;<b>資料隔離,權限管理,</b>基于odps多租戶機制,各部門可獨立管理自身的資料,獨立做資料授權。
上圖展示了阿裡内部資料平台的進化。首先是大資料平台的統一,資料倉庫的統一極其重要,然後是産品和服務層的統一。最上方的前台業務也契合了阿裡的公司戰略:基礎設施要足夠大,前台能夠利用其快速突破業務。右邊是支撐資料平台的一些工具軟體。比如成本管理,當一個公司足夠大的時候,成本控制非常重要。怎麼做到資料共享、算法共享、知識共享,一直是阿裡的願景。
上圖是數加對阿裡集團業務的支撐,下面是數加平台,支撐着螞蟻金服、電子商務、物流及其他領域。存、通、用是阿裡在資料上面多年來總結的心法。存是指資料大集中,maxcompute(odps)統一存儲和計算;通是指統一規範,打通各個業務機關,進而推動資料開放和交換,促發展,養生态;用是指資料化營運,進而營運資料。
阿裡集團絕大部分資料都在數加平台上。
首先需要統一的資料上雲,然後資料資産化是指解決成本問題,隻有能産生業務價值才能反向拉動整個資料相關技術及團隊的成長。資料生态是将前三步積累的東西建構一個平台。
首先是,希望數加平台成為資料分享第一平台,基于大資料os建構大資料生态。普惠大資料也是其中一個願景,希望大家通過這個平台可以更加關注自己的業務而不是研究如何搭建平台、hadoop。其實,做資料平台最難的并不是搭hadoop、spark,而是如何做元數管理、排程、資料治理、資料監控。一個公司需要投入很大的人力才能做到基本可用。普惠大戶資料的提出就是希望基于這個平台,人人可用,便宜,好用。
業務資料經過4個過程:采集存儲環節,工具可以使用datax;計算和加工環節,包括資料預處理和加工、資料模型、算法;資料分析環節,一般是使用bi工具,也包括即時查詢、多元查詢工具;深度挖掘環節。最後進行資料服務和資料展現。應用加速就是經常提到的大資料中間件,比如大屏的中間件datav。右邊是一些應用的行業。
os層最裡面是計算引擎,資料采集、資料開發、資料分析、機器學習是最重要的資料學習領域。上部分列出了有些比較常見的中間件。正常來說,從零開始開發一個個性化推薦需要900人天的時間,但是使用上述的中間件可以将時間縮短到30人天。從零開始開發一個活動直播大屏需要一個月的時間,使用中間件隻需要3天~1個小時。
上圖展示了阿裡大資料os整個體系。下面是n個獨立的叢集(可能是跨國的),用飛天os将其變得相當于一台計算機,使用odps則看起來像一個計算引擎,one data做資料倉庫進行統一的管理和資料治理。周邊是數加平台的基礎設施和支撐軟體,比如中繼資料、排程和任務監控。最上方基于one service公共資料服務對外提供服務。
更詳細來看,資料層包含了各種資料,使用者資料中心即雲資料倉庫,每個使用者可以在其上建立自己的資料中心。各租戶之間可以做分享,并且有平台共享的資料。資料平台層包括計算引擎和支撐平台,對外有做sql開發和mapreduce開發的接口,openapi可以将做好的資料分享或者授權給别人使用。上面是資料應用,包括一方應用(日志分析、quickbi、ai應用)和三方應用。
阿裡做公有雲的資料平台服務,目标是服務中小企業。
數加平台的規劃包括:建子雲平台,建立行業雲;支援混合雲架構,統一進制資料系統,支援實時、資料抓取,相容開源資料生态、hadoop一鍵資料和任務遷移;繁榮資料市場生态;初步探索資料交換模式,平台主導建立數加共享資料庫(企業資訊資料庫、個人資訊資料庫、社會共享資訊資料庫)。