天天看點

看雲栖說雲栖——大資料 & AI

伯牙善鼓琴,鐘子期善聽。伯牙鼓琴,志在登高山。鐘子期曰:“善哉!峨峨兮若泰山!”志在流水,鐘子期曰:“善哉!洋洋兮若江河!”伯牙所念,鐘子期必得之。

——《列子·湯問》

本文内容取自2019杭州雲栖大會《大資料&AI峰會》。

峰會由大神賈揚清開場,賈揚清是多個AI架構的主要作者,大神剛從FaceBook轉到阿裡巴巴,在FaceBook之前曾在Google大腦工作過。

賈揚清的演講有一個核心觀點就是:

AI是一個系統工程,90%工作在算法之外。

在這額外的90%當中,大部分都是和大資料處理有關的工作。是以,今天的分會場主要講的還是和大資料處理平台相關的東西,當然這個大資料處理平台是AI加持過的。

在後面的分享中,阿裡雲研究員關濤和資深專家徐晟一起做了題為《AI加持的阿裡雲飛天大資料平台技術揭秘》的演講。

阿裡雲的大資料平台從2009年開始建設,一直面臨成本和效率的壓力,假如資料膨脹10倍,處理資料的成本也增加10倍甚至更多的話……這樣的事情簡直不敢想象。

阿裡雲處理的方案就是持續優化更新計算力。

具體的做法有三種:

  • 底層高效的算子層與存儲層、就是基礎計算單元效率提升和存儲優化節省,在巨大的體量下5%的提升都非常可觀。
  • 尋找“最優”的執行計劃、通過支援更多的優化工作模式,并允許在執行階段動态選擇來提高效率。
  • 自學習調優、通過基于曆史資訊的自學習回歸優化,讓飛天平台在執行計劃的選擇上更加聰明。

除了上述在引擎層面的優化,為了讓普通開發者能夠更高效的使用大資料平台,阿裡雲大資料開發平台的優化也經曆的三個階段:

  • 首先是圍繞MaxCompute大資料引擎的優化,通過将黑屏的指令行開發界面替換為更友好的DataWorks白屏圖形界面,提供了更好的權限隔離機制以保證資料安全、為了保障資料的持續産出提供了更好的排程、監控、運維功能,并圍繞MaxCompute提供了機器學習(PAI)、商業智能(QuickBI)等産品。
  • 後來進入了跨引擎的一站式大資料開發平台的階段,除了MaxCompute外,大資料開發平台還支援實時計算引擎(Flink)、EMR(Hadoop)、Elastic Search等更豐富的開源生态産品。在實作跨引擎的同時,還提供了大資料處理流程中的ETL、資料服務、應用開發等一站式服務功能。
  • 目前,阿裡巴巴大資料開發平台已經進入了全域大資料平台階段,除了能夠處理雲上的資料之外還支援對雲下的資料進行統一的處理和查詢,能夠實作跨雲、跨存儲、跨引擎、跨地域的資料資源管理。

接下來是阿裡雲智能計算平台事業部産品總監的産品釋出環節:

  • DataWorks 3.0、全面支援開源大資料生态産品,支援雲上雲下的混合排程,更新資料治理能力,更好的利用AI來優化開發平台在多引擎開發上的使用體驗。
  • 機器學習PAI全線釋出、提供算法模型的交易市場(AI市場)、支援AutoML自動化模型訓練與調參、支援自定義算法的上傳。
  • MaxCompute 3.0、成本降低70%、提供不停機上雲功能、AI加持下的數倉模組化和優化。
  • E-MapReduce 4.0、更新開源産品版本、縮小最低配置規格,降低準入門檻、支援更新的ECS執行個體。
  • 實時計算雲原生版本、就是企業版的Flink,名字叫做Ververica,多了幾個插件,後面介紹。
  • 互動式分析釋出、相容PostgreSQL的互動式分析産品,資料寫入即可實時查詢,适用于實時數倉建設,支援和MaxCompute組成聯邦查詢,冷熱資料分層存儲管理,降低成本的同時還可同時通路。
  • 圖引擎和開發工具、阿裡生态裡的圖計算引擎。
  • 阿裡雲Elasticsearch 2.0釋出、提供了更強的性能、以及對中文更友好的阿裡巴巴NLP分詞器。
  • OpenSearch 2.0、和ES不同的是OpenSearch主要是聚焦在電商和推薦領域。

阿裡巴巴在這個分會場的最後一個演講時有關Flink企業版Ververica的,對比社群版本的Flink,Ververica的改進包括:

  • App Manager、提供企業級的安全特性和配置管理、日志和監控名額等。
  • Libra Service、讓給Flink更容易配置和優化。
  • Stream Ledger、提供跨多條記錄的一緻性事務管理能力。
  • Gemini、Flink的資料持久化解決方案之一,支援更大的資料量、更快的恢複速度、更高的讀寫性能。

以上,就是《大資料&AI峰會》上的阿裡巴巴“自己”的内容。除此以外FaceBook、Intel、Spark背後的商業公司databricks都圍繞大資料和AI做了一些分享。

繼續閱讀