天天看點

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

近日, 國際開源界頂級會議lc3(linuxcon + containercon + cloudopen)首次在國内舉行,阿裡雲首席架構師唐洪作為特邀嘉賓出席并發表主題演講。唐洪首先從一組數字開始,回顧了阿裡雲曆史及重大技術突破時間點;第二部分主要分享了阿裡雲目前的技術架構和亮點,以及在此基礎上形成的廣泛的阿裡雲産品生态;第三部分重點講述了阿裡雲和開源社群的合作及進展,特别是阿裡雲在廣義的虛拟化技術領域的曆程,及在開源社群取得的成績;最後還展望了阿裡雲在容器和異構計算安全等方向上未來的目标。唐洪認為,通過堅定對開源技術的擁抱和合作,阿裡雲的技術和社群更具生命力,能夠更有效地支撐阿裡雲業務和生态的發展。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

下面是基于唐洪英文演講的摘要譯稿:

大家好!今天很榮幸給大家介紹一下阿裡雲的曆史,以及我們現在使用的技術。首先,我給大家分享一些阿裡雲的資料:阿裡雲成立于2009年9月10日;在兩年之後的2011年7月28日,我們的官網正式上線并釋出我們第一個産品ecs;在最近的八個季度裡面,阿裡雲的營收保持了三位數的yoy增長。今天阿裡雲占據了中國雲計算的絕對份額。我們有87萬付費客戶,到2017年的時候,我們年收入已達到66億人民币,相當于近10億美金。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

這些數字背後是我們的核心技術-飛天(apsara),現在我們來看一下 apsara的發展曆史。2009年初我們開始研發這個雲計算的底層作業系統,當時稱它為飛天(apsara);2010年8月27日,飛天成為了阿裡巴巴集團内部的雲基礎設施,在這個雲基礎設施之上我們開始支援一些業務應用,包括全網搜尋,網絡郵箱,還有圖檔儲存和微貸支付(當時該業務還在阿裡巴巴集團下,現在已經單獨拆分為螞蟻金服集團)。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

第三部分, 2013年8月15日,我們釋出了飛天叢集5k項目,為什麼叫5k呢,因為就是要突破叢集中五千台伺服器這個技術瓶頸,這也讓阿裡巴巴成為國内第一個獨立研發和擁有大規模通用計算叢集平台的公司。因為在2009年的時候,當時我們知道google的單伺服器叢集管理的最大節點數大約是5000。是以這就是為什麼我們覺得需要設定5k這麼一個非常具有挑戰性的目标,就是在技術上,我們的計算叢集至少要做到5000個節點的量級。最開始我們計劃是在2010年年底達到這個目标,但是事實證明實作過程比我們想象的難的多,直到三年後我們才真的實作了。

那麼在實作這個目标的一段時間之後,我們設定的新的技術裡程碑就是,除了要掌握這種基礎技術之外,我們的系統還應該比其他系統做的更好。是以在2015年的sort benchmark排序競賽上, 阿裡雲用不到7分鐘(377秒)就完成了100tb的資料排序,這在當時打破了世界紀錄。

再下來這個展示的裡程碑,這并不能說是一個技術上的裡程碑,主要是社群和開發者生态建設方面的。從2011年開始,我們舉辦各種阿裡雲開發者相關會議,到2016年我們已經辦了六屆,從這些數字裡我們看到,我們總共有超過四萬名開發者參加了我們的線下會議,超過700萬的觀衆線上觀看了我們的雲栖大會。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

那麼問題來了,現在阿裡雲究竟是什麼樣的一個規模和狀态?我們到底做了哪些技術上的創新?下圖我們看到的是一個規模迅速擴張的阿裡雲基礎設施分布圖,它是什麼樣的呢?首先,我們資料中心是按照地域來組織,尤其是在具體地區裡邊有這樣一個網絡,我們管它叫做transfer network轉移網絡。另外,還有一個骨幹網絡,這是一個資料中心之間的網絡,我們怎麼樣和使用者,使用者如何和我們資料中心進行連接配接的這樣一個骨幹網。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

今天的阿裡雲資料中心可用地區全球分布,在大陸我們有6個地區,華北區3個,華南區1個,還有華東區兩個,此外我們還有11個海外地區,分布在北美、歐洲和東南亞等地;另外我們有超過600個pop節點,總共20tb/s的帶寬處理能力。下面這張幻燈片顯示出我們阿裡飛天超大規模雲計算作業系統的架構圖,最底層的就是我們各個地區的資料中心。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

在資料中心之上我們還有四個紅框标準出來的子產品,這些是建構分布式系統的最基礎的元件,比如說分布式協同,還有安全管理,日志收集、監控、預警、追蹤、診斷等等都在這一層。在這層之上,我們有兩大系統,其中一個叫做盤古,負責存儲管理,另一個叫伏羲,負責分布式的資源管理。實際上通過這兩大管理系統,所有的資料中心裡的計算、存儲和網絡等資源都可以作為統一的資源,進行排程、管理和存儲等操作。在右面還有一個叫天基,負責基礎設施管理和服務管理,大家可以看到,這是飛天系統裡非常底層但也是非常重要的一部分,因為它實際上上面連接配接應用層,下面管理最底層的資料中心等硬體裝置。是以它的重要性就是負責服務部署,擴充及伺服器監控等,比如一些伺服器有問題的時候,可以迅速找到并馬上關掉它,然後下線分離它并把它單獨處理。

然後,在這個紅色的基礎設施管理和資源管理層之上,就是我們的租戶管理系統,主要有認證,還有授權、監控和計費等功能。在這之上,則是打包好的各種應用系統服務和調用,包括四大類:計算、存儲、資料庫和網絡;另外還有各種中間件、服務協同及serverless 計算等;此外我們還提供一些進階的服務功能,包括各種資料智能化服務,比如bi、ai和機器學習等,另外還有一些安全的服務。再上邊那些橘黃框裡的功能,實際上是提供資料互動服務的,比如說資料遷移,資料庫同步,還有内容分發(cdn),還有高速通道,這是建構混合雲的核心元件,能夠讓租戶的自有機房和他們在雲上的虛拟私網打通 。

最後,大家可以把最上面綠色的那部分看作雲的應用層,我們管它叫做“雲市場”。我們把這個apsara稱作為一個超大規模的雲計算作業系統,之是以叫做作業系統的原因就是,實際上apsara和一個單機的pc作業系統其實是很相似的。 最底層都是硬體,紅的那層對應的是核心,在核心之上,今天所有的pc都是多使用者的,有賬戶管理子產品。 所有的這些藍色的雲服務對應于一個pc作業系統的系統調用、系統服務和原生應用。最後大多數的現代的作業系統,都有一個應用(apps)商店。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

接下來,我想簡單地介紹一下阿裡雲飛天作業系統apsara的設計亮點。首先,apsara的目标是建立一個通用型的計算平台,在這個平台上各種不同的應用和關鍵應用都可以跑起來,無論是低延遲任務還是批處理任務,我們需要這麼一個混合型的計算平台來運作所有的這些應用。第二,在2013年達到5k目标後,我們并沒有止步,今天apsara cluster叢集管理超過1w個節點,超過上百pb的存儲,以及10萬cpu核心。在整個的apsara的設計過程中,我們從設計上就確定系統不會出現單點故障,且保證高于99.95%的服務可用性。另外,apsara所有的資料存儲都是預設三重備份,其中資料可用性達到10個9的水準,另外apsara系統所有的監控、診斷和部署都是完全分布式的。最後,飛天安全管理嵌入在飛天核心最底層,并且使用基于權能的安全管理架構,真正有效實施“最小化權限”原理。我們管它叫做最低tcb(可信基),通過基于最小可信基原則,我們建構一個安全的系統 。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

我想對5k再展開說一下 。大家知道在這個世界上并沒有那麼多的商業化叢集系統能夠達到5k規模的。是以這個規模對于阿裡雲來說是非常重要的。另外在阿裡巴巴集團内部,因為有了5k,apsara在規模上第一次超過了hadoop叢集,是以我們決定将内部更多原先放在hadoop平台上進行的資料處理統一到飛天平台上面,這就是“登月計劃”,将阿裡巴巴所有的核心業務的資料處理遷移到apsara平台上面運作。2014年7月1号maxcompute正式對外開放,這是一個基于apsara計算能力的平台,這也标志着阿裡巴巴成為世界上第一家對外公開提供5k處理能力的公司。很多公司可能有這樣一個計算能力,但從來沒有把它當作公共服務開放給社會。

另外,5k能力的對外提供公共服務,以及對這種技術的掌控,帶來的影響力超出了我們的想象,我給大家一個例子。在maxcompute正式釋出之前我們舉辦了一個天池大賽,賽題主要是将阿裡巴巴真實業務場景資料通過脫敏後提供出來,讓參賽隊伍來預測未來産品的銷量。這次天池資料大賽居然吸引超過7000個來自全球各地的團隊參加,甚至其中351個團隊是來自于中國大陸以外。而這樣的比賽在其他會議上也有,比如kdd上也曾舉辦過,但參賽隊伍數量遠低于此,這是非常令人驚喜的。

接下來這一頁ppt,可以顯示出我們産品系列的全面性。因為時間原因,我就不細說了。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

接下來我想說一下阿裡雲虛拟化技術的進展,我這裡并不會講廣泛意義和通常意義上的虛拟化,我将從三個方面來講,主要分為資源隔離、伺服器虛拟化和容器技術。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

在講虛拟化技術之前,我先說一下開源作業系統linux在阿裡巴巴的情況,目前阿裡雲所有的實體伺服器都運作着linux作業系統,比如fedora、centos等發行版;另外,2011年阿裡巴巴釋出了基于2.6.32核心版本的定制化核心alikernel;第三,從2010年開始阿裡巴巴送出的将近300個kernel更新檔被社群接受,這在國内網際網路公司中排名第一。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

接下裡,我們再說一下我們為什麼要将延遲敏感性(latency-sensitive)任務和批處理任務混跑,這是來自google的一張圖,大家可以看到的,通常承載ls負載的叢集的cpu使用率會遠遠低于承載批處理任務的叢集。 是以要提升整體資源使用率,一個直覺的想法是将兩類負載做混跑。做混跑的關鍵挑戰是如何做到在不犧牲延遲敏感性任務的長尾延遲的情況下提升資源使用率。我們在這方面做了很多工作,具體細節因為時間原因我就不展開了,總的來說,我們在多個次元上實作了的資源隔離,包括cpu,網絡和io等。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

下面讓我們來看一下這些工作帶來的效果,下面這張幻燈片顯示出cpu資源隔離的效益。這個豎線實際上是一個cpu使用率。我們可以看到cpu使用率從35%提升到65%以上,增長率超過30%。與此同時,整個系統的延遲敏感性任務工作負載在吞吐量和延遲性上的性能降低也隻有5%以内。是以這就顯示出cpu資源隔離的效果。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

接下來再看一下網絡資源隔離的效果。延遲敏感性任務和批處理任務混跑的情況下,不采用網絡資源隔離比采用網絡資源隔離,平均延遲時間高出6.8倍,尾延遲更是高出11.8倍。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

再看一下io限流的效果。這裡有兩個檔案,一個做了限流,一個沒有做。可以看到我們的io限流機制很有效,被限流的檔案的iops穩定在25k左右。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

下面說一下阿裡雲伺服器虛拟化方面的技術進展,伺服器虛拟化是彈性計算的基礎,實際上阿裡雲第一個雲伺服器也就是提供這樣的基礎服務。2014年阿裡雲伺服器虛拟化技術從xen改到kvm;2017年阿裡雲更新為linux foundation金牌會員。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

在計算虛拟化方面,我想重點講一下hypervisor熱更新技術,因為熱更新嚴重影響服務的可用性。在2014年xen出了一個嚴重的安全漏洞, 惡意使用者可以利用這個漏洞侵入實體機器,或者影響跑在同一台實體伺服器上的其他虛拟機, linode公司當時為了修補這個漏洞重新開機了所有伺服器。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

那阿裡雲又是如何做到hypervisor熱更新的呢?我們在工程技術上做了很多的努力,讓所有相關子產品,比如kmod和qemu都可以做到全量熱更新。技術細節由于時間關系我不展開。 阿裡雲今天每一台 vm平均1-2個月都會經曆一次熱更新 ,更新過程中隻會有毫秒級别的暫停,使用者不會感覺 。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

我們再看一下阿裡雲容器技術方面的進展,2016年10月,我們和docker建立戰略合作夥伴關系。就在這個月dockhub服務正式落地中國;另外,2017年4月阿裡雲以黃金會員身份加入了cncf基金會;到目前為止,阿裡雲是國内唯一同時支援docker swarm和 kubernetes的雲服務供應商。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

在容器技術方向上,我們努力将阿裡雲打造成docker swarm原生內建的雲基礎設施,更加全面和廣泛地支援infrastructure as code擴充;另外,kubernetes的支援工作也在緊鑼密鼓的準備中。

此外,還有很多規模方面的增強,比如單一的docker容器叢集可以部署超過3萬個vm節點;最後,我們還運作着世界最大的基于容器的應用,那就是阿裡巴巴的電商業務平台。在2016雙11當天有超過30萬的docker容器被部署,峰值交易能力達到17.5萬筆/秒。

阿裡雲首席架構師唐洪:擁抱開源的雲端更具生命力

最後,在我今天演講結束之前,說一下阿裡雲未來的技術方向。首先是輕量級虛拟化,容器方面我們将追求輕量級虛拟化技術;第二,我們會采用像nvme存儲和25ge網絡這樣的超快速硬體,在此之上全面優化檔案系統和網絡性能,我覺得超快速硬體部署和優化是非常有趣的一個方向,值得探索;最後就是異構硬體虛拟化的安全增強,比如fpga、gpu,以及其他的定制化硬體,這些最新計算平台的虛拟化安全方面需要注意什麼,也是我們未來工作的一個重點。

以上就是我今天演講的全部内容,謝謝大家!

繼續閱讀