天天看點

阿裡巴巴基礎設施挑戰與晶片政策

阿裡巴巴集團副總裁周明負責阿裡巴巴集團、螞蟻金服集團,包括阿裡雲在内的基礎設施、基礎技術的研發、規劃、建設、營運等。周明在2019杭州雲栖大會上,深入介紹了阿裡巴巴基礎設施的挑戰以及晶片政策,以下是周明的分享内容文字整理,經編輯。

阿裡巴巴基礎設施挑戰與晶片政策

我從基礎架構的規劃建設和營運者的角度,談一下基礎設施所面臨的挑戰,以及從基礎設施角度看如何發揮整體的晶片算力及其政策。

阿裡巴巴基礎設施挑戰與晶片政策

首先,阿裡巴巴基礎設施的現況。阿裡巴巴今天已經不僅僅是服務于電商以及螞蟻金服的金融業務,因為有了阿裡雲智能也就是把技術作為業務的商業模式,是以我們服務了各行各業,服務企業有上百萬家,囊括了網際網路、電子政務以及金融等行業和企業。

我們有遍布全球的資料中心,也有百萬級規模的線上的生産伺服器,是全球前五大的伺服器規模。這麼大的規模一定就會給帶來非常多的挑戰,挑戰有技術的、也有非技術的,接下來簡單講一下面臨的挑戰以及做了哪些方面的工作。

阿裡巴巴基礎設施挑戰與晶片政策

首先,我們伺服器從10萬到100萬(百萬級),當然今天還沒有哪家公司有1000萬規模的伺服器,千萬級規模遇到的挑戰肯定是不一樣的。當線上生産伺服器到達10萬的時候,一定要考慮在百萬級的時候應該遇到什麼樣的挑戰;同樣,當到達百萬級的時候,就要考慮千萬級将遇到什麼樣的挑戰,技術挑戰和營運挑戰都是什麼,這些都是需要值得我們思考的。

從技術上簡單講一下,我們一定要考慮技術競争力。首先技術要有先進性,另外還有考慮TCO的成本,如果不考慮成本問題的話,肯定不可能大規模應用。沒有大規模應用的話,就認為是技術的自嗨,是以在這裡考慮的事情就比較多了,比如考慮大規模的線上管控,肯定不可能人工管理而要高度的自動化,這就可能帶來很大的風險,一個bug或故障很可能就會被放大,到底要怎麼做,大家可能很多時候就會忽略供應鍊。

今天阿裡巴巴在全中國的一年新增伺服器,占到全中國增加伺服器10%以上的時候,可以想一下一年增加幾十萬台伺服器是什麼概念,可能幾天之内就要有多少萬台的部署(高峰期時候),供應鍊就會帶來挑戰。

我們曾經有過經曆,伺服器可能要兩三個月才能到貨,因為用量大,不是幾百台、幾千台。現在基本上從開始下單到最後可以用,10個工作日就可以全部搞定了,這是我們認為比較經濟的時間。

這裡其實有非常多的技術考慮,包括如何通過算法做好預測等,包括運維管控中出現的故障、怎麼解決使用者的期望等。

大家都知道,今天雲的客戶最希望不管基礎設施,隻管做好業務就可以了。不管是什麼概念呢?就是說這個裝置永遠不要換,潛台詞就是永遠不要出現一個故障,最好讓客戶不知道,但很明顯是不太可能的。

另外,資源永遠是需要的時候就要有,最好不要告訴客戶說伺服器沒有了、資源沒有了、資料中心沒有了等等,這個其實也很難做到。

站在我們的角度就要考慮這麼多的挑戰。

阿裡巴巴基礎設施挑戰與晶片政策

同樣,回到今天的話題“算力”,大家都在講摩爾定律遇到的挑戰,計算力是未來。我作為一個基礎設施的技術研發、規劃工作者,認為計算力絕對不僅僅是計算力,它涉及到計算、存儲、互聯,涉及到資料中心如何進行有效地結合。

今天阿裡巴巴作為網際網路企業,更多展現在整個叢集上要考慮的事情,就特别多了。比如大家今天都在做異構計算GPU、NPU,這些算力如何與CPU進行搭配是最合理的?

同樣,今天大量的資料在計算時需要搬運,搬運資料的時候一定會遇到帶寬等問題,也要考慮到搬運資料的過程是否在意延時。

像今天做存儲,如果是分布式存儲,很明顯需要叢集網絡的性能,這時候網絡延時就很重要了,大家都知道TCP/IP協定不太适合低延時,那就要考慮到底是要利用現有的低延時網絡協定如InfiniBand、RDMA,或是今天自研一個低延時的網絡協定,包括擁塞控制的算法,這些都是非常有技術含量的。

應用中還遇到一些問題,比如今天的網際網路公司希望做一個10萬台規模的伺服器叢集,因為它可擴充、使用率高,相當于可以提供很多資源。

網絡人員會說,資料中心隻要能夠承載這麼大規模的伺服器,網絡都可以搞定;而資料中心人員會說,隻要網絡能搞定,其它都沒有問題。

但真正要做的時候,遇到的問題就非常多了。比如從資料中心來講,最容易想到的是供電,還要考慮每一個機櫃多少千瓦最合理(結合應用)。同樣,對網絡來說,網絡裝置成本已經占到50%以上,這時候就要考慮到底是全部用相對比較昂貴的長距子產品(最簡單的),還是通過部署讓網絡裝置更加合理,用的子產品距離更短一些、成本更低,整個TCO更有競争力、每個端口的成本最合理,這些都是需要考慮的。

接下來,簡單講一下阿裡巴巴在這些領域裡做了哪些工作。

阿裡巴巴基礎設施挑戰與晶片政策

首先,算力方面,平頭哥提供了NPU晶片。同樣,作為一個網際網路公司,大多數時候在基礎設施裡還是會使用合作夥伴的技術,因為重點在于整體架構、整個系統設計,如何擷取最高的能力。是以,我們也會定制化,包括FPGA。今天阿裡巴巴在搜尋業務上,以前的搜尋用的是GPU,而GPU相對比較昂貴,我們在搜尋業務用FPGA進行解除安裝,其實非常不錯,但唯一一點就是可能經常會有算法的改變。大家都知道,算法一旦變,做個FPGA、RTL,盡管比ASIC要快,也得花兩三個月的時間。這時候我們做了一個編譯器層,包括專有的指令集,把一些基本算子先寫好,當算法有變化時通過編譯器就可以快速地應用新算法。

這樣的話,就可以從以前的兩三個月,很快縮短到幾天的時間,其實作實中甚至不到一天或半天就搞定。

阿裡巴巴基礎設施挑戰與晶片政策

講一下連接配接,連接配接其實貫穿了整個資料中心。從晶片來講,伺服器總線協定、機櫃級連接配接、叢集連接配接等,都需要做非常多的工作。

今天講一下從節點到叢集的工作,中間是今天釋出的自研400G DR4矽光子產品,矽光子產品到今天為止還沒有釋出400G的。矽光子產品有非常大的優點,比如把比較大的光器件做成矽光晶片,這樣就能讓矽光晶片象內建電路一樣,可以快速地設計并且制造,體積更加小而且成本在大規模生産之後會降低,但挑戰非常大,包括技術和生态鍊條上的挑戰。如果做光晶片的,肯定會非常知道這裡面的艱辛,但阿裡巴巴做了并且做成了。我們今天釋出以後,大規模使用可能會在明年的下半年。

再往上是DCI通訊,再往上講一下網絡叢集,其實是用自研的交換機和OS來組成新的HAIL 2.0叢集架構,這個叢集架構抛棄了以往的商用交換機架構。

商用交換機核心是機架式核心交換機,我們全部是自研的交換機,自研NOS的好處是規模可以做到很大,可以做到10萬台規模以上的叢集,同樣擴充能力也非常高,就是擴充非常友善。再者比較智能,可以像伺服器一樣來管理交換機,是以可以自動化的上線。

基本上我們的網絡就是自動上線、自動變更,遇到故障時基本上實作的是3分鐘恢複,就是1分鐘發現故障、1分鐘定位、1分鐘恢複,這在傳統網絡裝置裡還是非常大的挑戰,但正是因為我們今天做了這些工作,才有了這樣的一個結果。

阿裡巴巴基礎設施挑戰與晶片政策

再講一下存儲,去年我們釋出了AliFlash V3版本,自研的SSD也支援了Open Channel的SSD,今年已經大規模用上了。支援Open Channel SSD的好處是通過本地的存儲軟體,可以直接對SSD進行更加底層的操作,性能更好。同樣,AliFlash V5.0也在研發中,會做一些淨資料的存儲和計算。

同樣,我們在伺服器領域裡也做了從部件到整機伺服器架構優化的設計,這是新一代的雲伺服器玄武,它其實也是一個子產品化設計,就是在伺服器硬體層面是子產品化的,可以自由地組合、組裝,通過不同的組裝之後可以滿足不同需求,比如不同規格的計算或存儲伺服器,從硬體層面都比較友善。

同樣,我們也做了邊緣雲伺服器,主要目的是為了快速傳遞并且快速上雲。

阿裡巴巴基礎設施挑戰與晶片政策

剛才講到了存儲、計算、連接配接,還有一個很重要是資料中心,阿裡巴巴在資料中心一直做了很多探索,前兩年在千島湖裡做了一個從湖底抽水制冷的資料中心,它的好處是比較環保和節約成本。我們在張北也做了新風自然冷,也是非常環保和節約成本的,但張北還做不到365天,因為有時候與空氣品質有關系,是以差不多有300天以上是自然風冷性能。

由于今天資料量越來越大,資料處理也越來越複雜,晶片功耗也越來越多,大家都面臨着功耗挑戰,這時候就要求單機櫃的功率密度,甚至有時候要求高功率密度的機櫃,是以我們研發了浸沒式液冷的資料中心,今天已經在張北部署了世界上最大規模的浸沒式液冷資料中心,我們即将部署在杭州的差不多有兩三萬台規模的浸沒式液冷資料中心。不僅僅是功耗問題,我們也在考慮如何能夠把浸沒式液冷作為普世性的資料中心。

阿裡巴巴基礎設施挑戰與晶片政策

回到算力問題,架構會帶來非常大的改變,會帶來E級計算能力,事實上我們也通過各個團隊的努力做了512片的訓練叢集。我們在資料中心領域,在低延時網絡、計算、存儲、編譯器、AI算法等努力下,這個叢集取得了很大的效果。

舉個例子,比如以前做的拍立淘,之前做一項訓練可能需要花兩周,而用這個叢集可能幾十分鐘就能搞定了。同樣,以前我們做不到100萬的分類,今天用這個叢集就做到了這麼大規模的分類。

總結下來看,計算能力線性的增加是有技術含量的,這個技術含量是需要各個專業深度配合,并且這是有業務價值的,展現在兩個方面:一方面,以前需要花很長時間,今天可以很短的時間搞定,讓業務快速疊代,尤其網際網路快速疊代業務、快速試錯非常重要;另一方面,以前做不到的事情現在可以做到了,比如Google釋出了一個模型,很多原來根本就沒法算,但對我們來說就不是問題。核心就是一點,計算能力線性增長是有技術含量的,也是有業務用途的。

阿裡巴巴基礎設施挑戰與晶片政策

今天我們團隊提供的不僅僅是技術,還提供的是生産7×24小時服務,意思是說不僅僅是提供裝置,也不僅僅是提供技術本身,而是要提供用于生産的服務。這時候就要管控了,我們做了一個資料中心大腦,幹了什麼事情呢?首先,是對伺服器、網絡、機電裝置等進行很好的管控,從傳遞到業務處理,一旦有了故障可以快速恢複,從最開始人工到資料化,從資料化到自動化,從自動化到智能化。其次,是資料中心日常運維現場人員的管理,IT人員、電力裝置人員、空調制冷人員等,怎麼進行日常工作、做哪些工作,這時候讓資料中心大腦提供決策輔助,提供最優決策。舉個供應鍊例子,通過智能算法做好精确的預測,讓整個傳遞準确率很高。

阿裡巴巴基礎設施挑戰與晶片政策

最後,回到今天的主題,阿裡巴巴基礎設施和晶片政策,晶片非常重要的,沒有晶片的硬核計算能力,實際上很難有這麼一個未來。

但是要把晶片能力完美地發揮出來,需要各個專業能力包括架構能力等。同時,阿裡巴巴也不是所有事情都自己做,我們也堅信不管從應用到系統還是部件到晶片,也要有合作夥伴一起來發揮各個專業能力,進而獲得整個系統最優的架構。

最後講一下,所有這一切都是在客戶需求的價值驅動下做的。必須回到我們做的事情到底對客戶的價值是什麼,解決客戶的痛點到底是什麼,否則一切都是技術自嗨。(文/甯川)

繼續閱讀