天天看點

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

2019阿裡雲峰會·上海開發者大會于7月24日盛大開幕,本次峰會與未來世界的開發者們分享開源大資料、IT基礎設施雲化、資料庫、雲原生、物聯網等領域的技術幹貨,共同探讨前沿科技趨勢。本文整理自開源大資料專場中阿裡巴巴集團副總裁,阿裡巴巴計算平台事業部總裁賈揚清先生的精彩演講,将為大家講述開源大資料與人工智能生态前瞻,分享阿裡雲對開源的态度,以及對大資料和人工智能的未來規劃。

專家簡介:賈揚清,阿裡巴巴集團副總裁,阿裡巴巴計算平台事業部總裁。曾任Facebook AI架構部門總監,負責前沿AI平台開發,Facebook各産品部門AI平台的支援以及前沿機器學習系統研究。曾在Google Brain擔任研究科學家,緻力于深度學習的科研與工程,在深度學習架構領域有很多的貢獻和積累。他是Caffe作者,TensorFlow作者之一,Pytorch 1.0的合作上司者和Onnx創始人。

開源大資料專場PPT下載下傳

本文内容整理自演講視訊以及PPT。

一、開源現狀

目前為止,AI開源項目的發展可以說已經深入人心。從2013年的Caffe,到2015年Google推出的被認為是目前最流行的大規模可商業應用的人工智能架構——Tensorflow,到2017年Facebook推出的可以用來實作更加靈活,從科研到部署環境的PyTorch 1.0架構。可以說,近幾年人工智能的發展與開源社群的開源共享精神是密不可分的。從全球角度來看,整個開源社群正在蓬勃發展。據2018年GitHub開源年度報告統計,GitHub上共有3100萬使用者在活躍的進行各種軟體開發,全球共有約210萬個組織建立了約9600萬個倉庫的開源項目。在2018年,GitHub新增活躍使用者數量超過了前六年的總和,相較于2017年新增了40%的組織機構和30%的代碼倉庫。其中,國内的開發者也參與了很多開源項目,從底層的系統到上層應用,從全球趨勢來看,開源無疑是軟體發展的大勢所趨。

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

下圖是中國信通院企業采購大資料軟體調研報告,從企業的角度來看,有53.9%的企業選擇了開源軟體商業版,有32.7%的企業選擇了開源軟體社群版,總計共有86.6% 的企業選擇基于開源軟體建構自己的大資料處理業務。不難發現,目前國内開源發展情況與全球趨勢是一緻的。

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

二、阿裡雲對于開源的态度:擁抱、貢獻、共赢

阿裡雲是自主可控的雲,同時又是開源相容的雲。在過去十年,阿裡雲最驕傲的一點是建立了一個從底層大規模的內建管理、內建控制、資源優化、大資料解決方案到上層業務平台的一系列軟體棧。另一方面,阿裡雲在整個自主可控的大系統中應用了非常多的開源運作庫和開源項目,這些開源運作庫和開源項目作為不同的積木,幫助阿裡雲搭建起整個自主可控的大廈。

1. 擁抱開源

阿裡内部有非常多的業務都在使用開源軟體。除了淘寶、天貓、支付寶、AliExpress、菜鳥、聚劃算和阿裡雲等阿裡内部的業務之外,阿裡雲向使用者提供的Iass和Pass服務也都借鑒和使用了開源的項目,比如,衆所周知的Linux,Hadoop,Flink以及最新的人工智能的架構Caffe和TensorFlow等。阿裡巴巴非常感激開源社群,并且熱切的擁抱開源社群。

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

2. 貢獻開源

阿裡在擁抱開源社群同時,也在不斷的向開源社群貢獻基礎力量。越來越多阿裡内部一線的同學投入到開源的項目當中,貢獻自己的力量。可以發現,當開源應用結合到與企業業務流程中運作時,會遇到非常多的問題,而這些問題可能也是最初開源環境中沒有考慮到的問題。很多時候,開源項目起源于開發者的一個想法,為了建構一套系統,在設計、架構、開發過程中融入非常多的深入思考和巧妙設計,而實際業務的實踐則能夠使開源項目的設計得到錘煉和回報。目前在國内,阿裡是貢獻開源最出色的企業。GitHub上有大量的開源項目由阿裡建立,據阿裡經濟體GitHub開源生态報告統計,國内Top10的開源項目中,阿裡的開源項目有6個。

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

在大資料和人工智能領域,目前為止,阿裡已向開源社群貢獻了超過100萬行的代碼。越來越多優秀的阿裡工程師逐漸開始被開源的社群所接受。同時,開源社群也邀請阿裡的同學們成為開源項目發展方向探讨的參與者。至今,阿裡已培養50+社群多項目的Committer以及PMC,包括從最底層的ORC項目到Spark、Flink等項目。不僅如此,在阿裡已有10多個産品和項目基于開源的優化得到了非常好的效果,優化後的項目無論從速度、可用性,亦或是穩定性方面相比開源的版本都有了較高的提升。

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

3.共赢開源

阿裡雲巨大業務體量為開源社群貢獻技術試驗場

開源軟體離不開經濟規律的控制,也就是說開源需要提供價值。目前,已經有非常多的企業選擇将自己的基礎架構遷移到雲上。雲是非常好的媒介,可以幫助開源軟體實作商業價值對接企業的業務場景。阿裡雲巨大的業務體量可以為開源社群貢獻技術的試驗場。舉例說明,Flink是一個流式計算的架構,同時也是阿裡雙11時期的中流砥柱。十年前,在阿裡剛開始啟動雙11時,業務體量非常少,業務對于系統的壓力也并不是太大。從2016年開始,阿裡雙11使用者已經達到了幾億級别,使用者大規模購買、浏覽和查詢等操作,導緻背景名額在0點時突增。同時,阿裡也逐漸發現大部分開源項目的設計沒有關注如此大體量下的應用壓力。是以,阿裡雲基于開源項目實作了非常多的優化以滿足自身大體量業務需求。在人工智能方面,阿裡也發現了類似的情況。上一代人工智能架構,如Caffe,在項目設計中往往帶着學術界的影子,而經過工業界和學術界多年的錘煉,新一代的人工智能架構(如Tensorflow和PyTorch)逐漸開始考慮工業界大規模、彈性、高性能、部署多種環境(在端上,在雲上,在手機端等等)的複雜情況。這些錘煉恰好為開源社群提供了非常好的回報和也為此做出了較大貢獻。

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

阿裡雲大資料與人工智能開源的雲産品

大資料和人工智能方面,阿裡雲對開源社群的主要貢獻有以下幾點:

實時計算:Flink支撐了阿裡在雙11時期實時計算任務。

PAI元件:PAI是基于開源的PyTorch和Tensorflow架構深度優化的平台,PAI完全相容了Tensorflow跟PyTorch的文法。在模型的分布式訓練和模型部署時,PAI可以通過底層的優化,通信庫的優化,與GPU及體系結構的優化,實作更快的訓練和更大規模的部署。

EMR:大資料方面,不隻有Flink流計算,還有傳統的Hadoop,Spark等産品。阿裡雲ElasticMapReduce(EMR)平台,基于開源大資料集合服務,可以完美對接大資料場景當中所遇到的開源計算模式。同時幫助線下開源使用者無縫遷雲。

ElasticSearch:阿裡雲是賦能使用者,實作商業價值的平台。阿裡雲與ElasticSearch達成了非常好的合作。由ElasticSearch的創始團隊提供企業級的服務,阿裡雲為使用者提供ElasticSearch産品,解決平台、管控和部署等一系列問題。這樣的合作模式可以使得開源的軟體更容易落地,進而幫助整個生态持續發展。

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

阿裡雲與開源社群的共存、共生、共赢。

如何将開源項目部署到實際應用系統當中?大部分企業和開發者逐漸把将他們的項目遷移到雲上。從個人角度來看,在雲上開發非常友善,從企業角度來看,在雲上開發可以更容易進行跨地域和國際化部署。目前,阿裡雲在全球18個地域、49個可用區,服務230萬家客戶、間接地為數十億使用者提供雲計算、大資料、人工智能算力,幫助客戶部署自己的應用和産品。阿裡為開源社群提供的雲計算能力,與開源社群早已形成了共存、共生、共赢的強紐帶關系。

阿裡巴巴集團副總裁賈揚清:開源大資料生态前瞻

三、大資料&人工智能未來規劃

支援集團,服務雲上:阿裡雲,阿裡巴巴集團的基礎團隊同時支援集團内部的應用和雲上的應用。阿裡巴巴集團是阿裡雲最大的使用者,相信在能夠支撐如此大使用者的情況下,阿裡所提供的技術與産品都是經過驗證的、可靠的。

回饋社群,營造生态:阿裡和Flink社群深度合作之後,将阿裡内部的Blink項目和Flink進行了整合,将結合的版本回饋社群。在與開源社群的互動過程中,阿裡也積累了非常多的經驗。

共建社群,共赢商業:目前,越來越多國内的開發者對開源有着非常大的熱情。阿裡雲希望可以為這些開發者提供更多的服務,比如如何幫助開發者做CI,如何更好的做測試,如何實作更好的代碼托管。同時,阿裡雲希望通過開源的會議,開源開發者的活動,進一步幫助企業與開源開發者社群進行更有效的溝通,助力開源社群和開源技術的發展。

繼續閱讀