天天看點

阿裡造“神龍”

阿裡造“神龍”

淺友們大家好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你特别想聽到誰的故事,不妨加微信(微信号:shizhongmini)告訴我。

阿裡造“神龍”

文 | 史中

人類對于計算的夢想,像一條河。涓涓細流,奔騰入海。

計算的載體,從樓船一般的大型機,到快艇似的小型機,到如今萬噸巨輪的雲計算,我們的武器如史詩般演化,但背後卻有同一個技術的身影,那就是“虛拟化”。

簡單了解,虛拟化技術就像變形金剛,把無數台計算機“組合”成一台超級計算機,或者把一台整計算機“切割”成無數小計算機。

1962 年誕生的人類第一台超級計算機 Atlas,就用了名為 Supervisor 的虛拟化元件來管理實體主機資源。如今最先進的生産力——雲計算,底層的重要技術也是“虛拟化”。

按照正常的故事劇情發展下去,未來雲計算會成為人類應用的底座,就像我們熟悉的水電一樣。但是,事情并不那麼簡單。

雲計算帶有一道“傷痕”——經過虛拟化技術提供的計算力是“打折”的。

世界是以徘徊不前:

上汽集團曾希望用雲計算來解決汽車仿真的大算力場景需求,但實測結果讓公司大跌眼鏡,虛拟化性能損失高達60%,最終不得不忍痛放棄計劃。

類似的例子比比皆是,而且越是密集計算的場景,虛拟化帶來的損耗問題越明顯,無數企業是以被擋在雲計算的大門之外,眼看着新時代的浪潮奔流走遠。

這個巨大的傷痕,成為了雲計算“房間裡的大象”,人人都能看到它,卻沒人有能力除掉它。以至于到後來, 晶片廠商、虛拟化廠商、雲廠商,整個産業鍊對此諱莫如深,從來沒有人捅破這層窗戶紙。

今天的故事,就從這裡開始。

阿裡造“神龍”

(一)

2016年底,阿裡巴巴幾十位技術“長老”圍坐在會議室裡。

這是每年一度阿裡巴巴的豐收儀式——“雙11”複盤會。這一年,雙11當天成交額創下了1682億的紀錄,淘寶天貓的背景像一部碩大而精密的數字機器,沒有一個零件掉鍊子。阿裡雲費了九牛二虎之力,将虛拟化性能損耗降到了當時業界的最低值,大家臉上自然洋溢着輕松和笑意。

輪到行癫發言。

所有人都把目光投向他。在大家心裡,這個阿裡巴巴集團首席技術官(CTO)有兩個特色:“善于拿捏理想和現實的技術信徒”+“愛曝金句的耿直 Boy”。

阿裡造“神龍”

行癫

行癫的套路是這樣的:

每年雙11,他一邊波瀾不驚,一邊啟發大家構想出一些宏大的技術方向,足夠整個阿裡巴巴集團接下來奮鬥一整年,今年也不例外。

我們要定義哪些是核心問題,然後根本性地解決它。比如,虛拟化損耗問題就是之一。我們的目标很簡單,必須想辦法把損耗降到“0”。

行癫對滿屋子人說。

會議室裡的這些技術宅聽完差點一口老血噴出來。阿裡巴巴過去二十年雖然逆天,但我們已經膨脹到想要挑戰幾十年來的行業潛規則了麼??

故事講到這裡,需要先按一下暫停鍵。中哥強勢插入給你科普一下:雲計算的性能損耗究竟是怎麼來的?

你肯定熟悉你自己的電腦。如果你把你家的計算機想象成一塊蛋糕。那麼,雲計算就是一塊“雙層蛋糕”。雙層蛋糕的下面一層是無數台和你家電腦一樣的實體機,上面一層是無數虛拟機。

阿裡造“神龍”

你去購買雲計算,買的可不是下面的實體機,而是上面的虛拟機。

這樣對你來說其實更舒爽:

比如你今天需要一台阿裡雲的4核8G的伺服器,明天需要一台8核16G的伺服器,不用重新攢電腦,隻要輕輕點一個按鍵,你的虛拟機就自動變大了。至于下面的實體機怎麼排程,那不是你的事兒,是阿裡雲的事兒。

而把實體機變成虛拟機的這個技術,就是“虛拟化”。

好,重點來了:“虛拟化”的舒爽不是白白得來的,它的代價就是性能損耗。

舉個例子:假設你是廠長,工廠流水線上有104個勞工,你一個人管不過來104人,他們經常上班摸魚。于是你從中選出8個小組長,每個小組長管12名勞工。這樣一來,生産秩序加強了,但是有8個本來能幹活的人做了管理工作——原來絕對生産力是104分,現在隻剩下96分了。

在這個例子裡,我們就說“虛拟化的性能損耗大概是8%”。

阿裡造“神龍”

同樣,在2017年,雲計算的性能損耗也差不多在這個量級。粗略地說:104個CPU放在一起,要有8個CPU做“管理”,剩下96個才是幹活的。你算算,這個損耗也是8%。

用國中實體知識想想也知道,虛拟化性能損耗這件事兒,是天經地義的。最多隻能無限降低,不能消失。

好,科普完畢,我們回到雙11複盤會上。

行癫提的目标很美好,讓CPU全部用于真正的計算。如果成功把虛拟化損耗降下來,絕對是雲計算曆史上的大功一件,那些企業上雲最後的顧慮也将煙消雲散。但這個技術難度,似乎不亞于證明“哥德巴赫猜想”。。。

圍坐的人裡,有一個人心裡“咯噔”一下——因為這是他的職責範圍。

此人名叫旭卿,阿裡雲彈性計算的技術負責人,聽到行癫“點将”,按捺不住内心的激動。因為這也是他團隊一直想做的事情,隻是如何實作,還拿捏不準。

阿裡造“神龍”

旭卿

當然,過去幾年,世界主流的雲計算玩家都在試圖通過各種“更新檔方案”降低資源損耗,阿裡雲也沒閑着。

2015年,阿裡雲的底層虛拟化技術架構被更換掉(從 Xen 到 KVM),虛拟化的開銷從極端場景的超過一半,降低到了平均10%的水準。

2016年,阿裡雲越來越穩定,使用者也開始迅速超過百萬。但在當時的虛拟化架構路線上,這10%的“硬核開銷”基本上屬于奧特曼消滅不了的小怪獸。

那次會議結束後,阿裡雲副總裁李津就拉着旭卿團隊促膝長談,他們追蹤到了一個行業真相:

過去晶片商、硬體商、虛拟化軟體廠商等幾乎所有的角色一如既往地扮演好自己的角色,按照各自的進化邏輯和速度演進,他們之間的配合就成了“三不管地帶”——虛拟化損耗被視作必然。

在計算力規模較小的時候這不會被當做是個大問題,然而放在數百萬台規模的雲計算時代,這個損耗才異常可觀。

李津和旭卿一緻認為,事到如今,再研究“更新檔方案”肯定沒戲,必須在計算體系結構上做創新:

以往的解決路線都是讓虛拟化軟體去遷就CPU的特性,好比是讓管理學符合流水線勞工,明擺着強扭的瓜不甜。

而阿裡雲的新計劃則是讓“上帝的歸上帝,凱撒的歸凱撒”:新造出一個帶有智能晶片的專用闆卡負責虛拟化排程,進而把那些CPU解救出來。

也就是說不從原來的勞工裡選拔小組長,而是阿裡巴巴自己研制一個“專業組長”,直接空降管理104個勞工,這樣104個勞工不就都可以全力幹活了麼?

阿裡造“神龍”

大概就像醬

看完方案之後,大家眼珠一轉,技術構想很NB,沒意見。但問題有兩個:

第一、做晶片,做闆卡,這可都是門檻極高的硬體設計。。。

第二、舉頭望去,就連世界公認的雲計算領頭羊,亞馬遜 AWS,也沒聽說有這麼激進的“硬體計劃”。

看這意思,整套事情玩下來,難度不亞于兩萬五千裡長征,未來一年團隊可要生死未蔔咯。

(二)

平心而論,這是一條很激進的路線。

這相當于要首次實作雲、虛拟化和晶片的技術大融合。旭卿掰着手指頭數,要想召喚神龍,至少需要四顆龍珠:

龍珠一、虛拟化軟體開發;

龍珠二、軟硬體銜接的中間層;

龍珠三、核心晶片設計;

龍珠四、硬體(闆卡、伺服器)設計。

虛拟化軟體開發就是團隊的原班人馬,勝任這次技術改革不在話下。當時的虛拟化技術負責人叫子團,他是個玩賽車的技術宅,對新技術總是保持着賽車般激情,子團聽後異常興奮,主動請纓帶着團隊開幹。

而硬體、晶片方面,阿裡也做過一些技術積累,曾經自研了閃存 AliFlash、全閃存存儲伺服器泰山、光子產品、以及大容量存儲伺服器貔貅、液冷伺服器、自研資料中心等等。

隻不過,現在還必須要有一支專門為這一項目服務的技術團隊。

阿裡造“神龍”

阿裡的液冷伺服器叢集

軟硬體中間層,旭卿腦海裡冒出一個人選,此人花名行憲,當時供職于某著名外國晶片公司北京分公司。

那天下午,旭卿電話突然響起,一個好朋友告訴他一個驚天秘密——行憲所在的部門要被那家外企整體裁撤。。。

旭卿兩隻眼睛噴出了火,就直接打車去機場。從首都機場再打車到西二旗時,已經夜裡十點多了。旭卿給行憲打電話,明天早晨找你談談。

第二天早晨咖啡館剛開門,行憲就到了。沒想到旭卿更早,已經在門口蹲了半天。。。

行憲順利加盟。

“當時我就知道,這事兒成了一半兒!”旭卿回憶。

行憲外向又暖男的性格,加上精湛的技術,使得他團隊的兄弟們一直很信任他。結果,聽說他加盟了阿裡雲,兄弟們紛紛給他打電話,想繼續跟着他做研究。

确認過眼神,行憲張開懷抱,加上兄弟團隊的人馬,這部分研發陣容妥妥齊備。

阿裡造“神龍”

行憲

現在龍珠隻剩下最後一顆——晶片研發的負責人。說實話,中國好的晶片人才屈指可數,短時間要找到合适的人選堪比登天。。。

但眼看還有一個多月就要過春節了,旭卿下令,硬着頭皮先開始幹!行憲團隊算是半個晶片團隊,先兼職晶片設計,如果有些功能不會用晶片搞定,就隻能“繞個路”,用軟體替代。

團隊第一次跑通驗證程式,已經是來年早春三月了。

那天是個周六,大夥都堆在項目室,誰都不想休息,因為驗證結果馬上就要出來了。

然而,最終在螢幕上跑出的資料給大夥兒潑了一盆冷水——“延遲”名額遠高于預期。

仔細分析之後,大家基本定位出了原因:有些坑繞是繞不過去的。這顆晶片是造也得造,不造也得造。

當務之急是找到一位晶片大牛。

那兩天,行憲魂不守舍,第二天周日本來他要開車去燕郊參加同學聚會,結果滿腦子都在想這事兒,連着開錯了兩個高速口。他怕出事故,隻好把車停在路邊讓自己冷靜一下。

就在這時,收到一條老友的資訊,聽說行憲在找晶片人才,給他推薦了一個厲害的人選,漸名。

旭卿得知自己苦苦尋找的晶片人才終于要有着落,像當年“追”行憲一樣,又開始三顧茅廬對漸名發起愛的攻擊,終于感動了漸名。

阿裡造“神龍”

漸名

和行憲外向的性格形成鮮明反差,漸名是個技術宅,不看廣告看療效的那種。

多說一句,這裡漸名做的晶片不是從頭自研一款晶片,而是用的行業内比較成熟的“可程式設計晶片”,在現成的晶片上設計邏輯。由于時間和能力所限,這算是個最客觀的妥協方案。(當然,這也成為了另一個故事的序章,我們後面還會說。)

行憲記得很清楚,漸名是帶着行軍床進辦公室的。兩個月時間,他就沒回家幾次。那天他找到行憲,淡淡地說了句:“晶片這邊設計得差不多了,你再測測。”

大家圍攏過來,看到各項測試結果都“超常發揮”。大夥兒輪番抱着顯示器上的參數合影留念,看起來就像一群傻子。

阿裡造“神龍”

此時旭卿手裡已經基本集齊了龍珠,接下來隻待召喚“神龍”。

大家開了個會,讨論新研制的這套伺服器到底要叫個什麼名字。有一位工程師說:“既然是召喚神龍,那我們就叫“神龍雲伺服器”如何!”

同學們一聽,紛紛露出“哎呦不錯哦”的表情,能飛天的不就是“神龍”嘛!

接下來的幾個月裡,産品經理霁榮在各研發團隊奔走呼号,跟進團隊内部和外部所有相關大牛們的研究進度,保證大家在承諾的時間裡完成各自的技術準備。

(三)

就在行憲他們死去活來折騰核心技術的時候,旭卿一刻都沒閑着。他心心念念惦記着做硬體設計的兄弟團隊。

2017年初,旭卿和硬體團隊的芳志一起去台灣出差。

大巴車裡,旭卿往芳志旁邊一坐,開始了唐僧般的念叨,從盤古開天地,到神龍伺服器,說了個遍。

很多人還不知道,為什麼阿裡巴巴會有一個硬體設計團隊,這裡多聊幾句八卦。

從2014年開始,阿裡雲就遇到一個重大的問題:買來的标準伺服器,“七國八制”,總是出現各種“幺蛾子”,今天這裡不穩定,明天那裡不适配。每天芳志的團隊都四處滅火,生無可戀。

從那時開始,阿裡巴巴就走上了定制伺服器的道路。功能規格、接口标準都由自己規定好,伺服器廠商按照這個規格研發生産,問題就少多了。

到了2016年,阿裡巴巴更進一步,已經開始完全自己設計伺服器。CPU和記憶體選型、存儲、主機闆設計、電源、甚至散熱元件都在設計圖裡清晰地設計好,伺服器廠商隻管去生産傳遞就好了。

是以,有關伺服器底層硬體設計,經過這麼多年錘煉,伺服器研發團隊是門兒清的。

阿裡造“神龍”

阿裡巴巴的定制伺服器

初一聽到旭卿的構想,芳志的反應和其他同僚差不多。“總感覺有點離經叛道,但又覺得值得試一試。。。”他後來回憶。

于是,晶片設計和軟體架構基本确定下來後,伺服器硬體團隊馬上開始和他們一起做關鍵器件選型。

漸名的晶片方案驗證差不多後,接下來芳志團隊就要開始設計搭載這塊晶片的闆卡了。大家給這塊卡起了個名字,叫“MOC卡”。

大家想象了一下 “MOC卡”的樣子,應該看上去有點像一個顯示卡。

但是真到具體設計的時候,童鞋們開始頭大了。

“說實話,好歹我在這個行業裡也摸爬滾打十五年了,這是我見過最複雜的闆卡,沒有之一。”芳志說。

阿裡造“神龍”

芳志

由于複雜度太高,在寫電路設計的時候,哪怕隻有一根線路設計出現錯誤,都會導緻闆卡點不亮。這種情況一旦發生,隻能推倒重來,返廠大吉。

返廠不僅會造成巨大的成本浪費,還會直接讓2017年雲栖大會釋出神龍雲伺服器的夢想泡湯。

就在設計圖交給工廠之前,團隊的童鞋通宵一周,你給我檢查,我給你檢查,一個點一個點看,一個電路一個電路查。送走設計圖的時候,就像老父親目送進京趕考的兒子一般。。。

2017年夏天,第一版MOC卡實物終于從工廠運了過來。

阿裡造“神龍”

MOC卡

硬體的同學們摩挲着自己的作品,沉甸甸地,像塊磚頭,愛不釋手。他們忐忑地把闆卡插進機箱。。。。“點亮啦!”屋子裡一片沸騰。在如此高壓高強度的工作狀态下,如此複雜的電路設計沒有出現一處錯誤,這群阿裡人用事實證明了自己在硬體領域的專業性。

MOC卡的照片通過釘釘群傳輸到北京,所有人一片歡呼。

為了測試闆卡工程結構上的可靠性,他們把MOC卡泡在裝滿紅墨水的容器裡,撈出來晾幹,然後直接用鉗子把晶片一個個拽下來,檢視裡面是否曾有液體滲入,結果非常滿意,裡面完全沒有墨水痕迹,說明晶片引腳的焊接也是天衣無縫。

到8月中旬整個産品軟硬體全部驗證完成,但留給中國隊的時間不多了。帶有MOC卡的神龍雲伺服器火速放量生産,像螞蟻搬家一樣進入阿裡雲的“蛋糕底層”,成為無數台實體機的一部分。

2017年10月12日。雲栖大會。

李津在沒有任何高能預警的情況下,在台上突然釋出“神龍雲伺服器”,并且宣布神龍是“現貨”——從當天開始,客戶就可以購買神龍雲伺服器做為硬體底層的阿裡雲計算資源。

阿裡造“神龍”

雲栖大會上

李津釋出神龍雲伺服器

業界爆燃。

當天下午,在隻能容納100人的神龍的技術論壇上,生生擠進去了300人。後來保安人肉堵住門口,才算作罷。

更神奇的事情發生了。

就在那次雲栖大會之後的一個月,大洋彼岸的雲計算全球老大亞馬遜 AWS,在他們的“雲栖大會” ——Reinvent 大會上同樣釋出了類似的硬體虛拟化技術。他們的虛拟化架構叫做 Nitro。

阿裡造“神龍”

AWS 釋出 Nitro

聽到這個消息,旭卿全明白了,原來 AWS 也早就秘密開始研究和神龍一樣的技術,不同的是 AWS 的晶片來自他們2015年初收購的以色列晶片初創公司 Annapurna Labs。兩家公司出于最進階别的保密,互相一點風聲都沒走漏。

大洋兩岸的兩家公司通過這種方式隔空緻意,英雄相惜。這像是雲計算的一場“生物大進化”,雲計算朝着“IT行業的水電煤”又邁進了一步。

“那一刻我終于知道,我們不再孤單了。”旭卿感慨。

旭卿的慨歎,其實每一個阿裡雲人都感同身受。

亞馬遜是世界上第一家雲計算巨頭,用“開創了雲計算時代”來形容它絲毫不過分。中哥曾在另一篇文章《阿裡雲的這群瘋子》裡詳細寫過阿裡雲的創業故事。2009年王堅帶領阿裡雲的兄弟們筚路藍縷地長征,很大程度上也是将亞馬遜AWS視作自己的鏡像。

那時候,阿裡雲雖然艱難,但前路終歸有一盞燈。而開發神龍的時候,研發團隊是兩眼一抹黑的。是以,當他終于知道阿裡雲的創新和AWS居然是同一個方向,而這一次阿裡雲居然還領先AWS一個月時,心中的驕傲如火山噴湧。

神龍天降,馬上投入戰鬥。

阿裡造“神龍”

截止2019年10月,世界各大廠商自研軟硬體一體架構的進度。

(四)

購買神龍雲伺服器的網頁快被擠爆了。

第一時間購買神龍的客戶大概分三類:

1、好奇的使用者——他們來嘗鮮;

2、雲計算的同行——他們來看看阿裡雲有沒有吹牛;

3、傳統企業——他們早就迫不及待地想上雲,但之前傳統的雲計算架構并不适合他們,神龍架構卻是他們的菜。

之前提到的上汽是第一個吃螃蟹的人。他們透露,相比過去使用傳統超算服務,使用神龍超算叢集汽車仿真計算效率提升25%;吉利集團也将全部仿真業務在神龍超級計算叢集,過去平均排隊2個月的任務,現在平均2周搞定。

為什麼用傳統雲架構不行,換成了神龍雲架構就行了呢?

這裡中哥多解釋一句。

很多傳統企業,例如制造業,從90年代就采用了實體機架構,那時候還沒有雲計算,是以他們自己建構了一套虛拟化架構(很可能選用的是VMware)。

現在傳統企業要向上雲,就面臨兩難了:

1、把這套虛拟化架構原封不動地裝在雲計算本身的虛拟化架構裡,就會出現“嵌套虛拟化”的問題,大概就像《盜夢空間》裡描述的那樣,在一個夢境裡又做了一個夢,這樣會讓虛拟化性能開銷飙升,跑起來比拖拉機還慢,完全不能忍。。。

2、就算企業為了上雲,下決心重新建構一套适應雲計算架構的軟體,又會發現上下遊供應商他們用的體系還是傳統架構,又出現了豬隊友接口不相容的問題。。。

阿裡造“神龍”

這就叫嵌套虛拟化

由于神龍雲伺服器自身的虛拟化動作都被“藏”到了MOC卡裡,對于傳統企業來說,神龍機和實體機沒差別。是以把原來的系統原封搬上來,既不會造成性能損失,又不用面臨和上下遊接口不符的問題。

阿裡造“神龍”

神龍雲伺服器上

MOC卡已經把

虛拟化的活兒給幹了

雲的好處全都有了,過去的不友善又全沒了,世界上還有這樣的好事兒。很多傳統企業紛紛開始大量選購阿裡雲。

為此,2018年,行癫将阿裡巴巴集團唯一一個企業端産品創新突破獎頒給了神龍。

阿裡造“神龍”

但在阿裡雲眼中,此時的神龍還未強大到能支撐起所有計算需求。這是為啥呢?

之前我們提到,虛拟化其實分成兩個方向:

一個方向是虛拟化組合:把一堆實體機粘成一個大的虛拟機;

一個方向是虛拟化切分:把一個實體機切成一堆小的虛拟機。

剛才為了不打擾你聽故事,中哥沒有說得很細:作為第一代産品,神龍雲伺服器用MOC卡實作的硬體虛拟化,其實隻能滿足第一個方向。

每一個神龍雲伺服器,就像一塊樂高積木,很多樂高積木拼起來組成更大的積木,這沒問題,但一個樂高積木本身沒辦法再切分。

阿裡造“神龍”

神龍架構的虛拟化組合,大概就是這個樣子。

結論很明确:第一代神龍架構其實是缺一條腿的——它隻能支撐一半的雲計算場景。

如果神龍架構不僅能做到虛拟化組合,還能夠做到虛拟化切分,那麼它就可以替換掉阿裡雲現有的所有伺服器,實作全部更新了。

這就是神龍2.0的任務。

當時的神龍,已經不是當初一個小團隊“自娛自樂”了,它是要支撐阿裡雲很多業務的。但凡拖延,後果不堪設想。說白了,這次技術更新是幹也得幹,不幹也得幹。

神龍2.0傳遞日期臨近,團隊手忙腳亂,人手嚴重不足。

這時,有一個人能緊急調動所有人的資源,那就是阿裡雲智能基礎産品事業部總經理小邪。實際上,在神龍研發早期,小邪就對這個技術寄予厚望。

小邪在阿裡巴巴的技術體系裡“摸爬滾打”十年,他曾參與集團首次大規模技術改造項目——“五彩石戰役”,非常清楚神龍對阿裡雲乃至整個行業的價值。如果說五彩石打通的是淘寶、天貓的架構和資料,那麼神龍統一的則是阿裡雲的底層基礎設施。

阿裡造“神龍”

小邪

神龍不隻是颠覆計算服務這麼簡單,它還會推動雲平台上存儲、網絡、資料庫等等基礎技術的躍進!

小邪在飛天2.0啟動會上如是說。

那段時間,小邪在各團隊奔走呼号,在他的感召下,無數兄弟部門加入戰鬥序列,為新一代神龍貢獻力量。

正如那句話,如果你知道要去哪裡,全世界都會為你讓路。

2018年8月份,阿裡雲終于如約把新一代神龍架構的這套代碼完成了——虛拟化層被做薄,損耗率被大幅降低。

阿裡造“神龍”

第二代神龍架構

大概是這樣

這下旭卿“手裡有糧,心中不慌”了——凡是能用傳統雲計算架構實作的,神龍架構都能實作!而這也意味着,雲伺服器首次實作了整顆CPU用于計算任務,在算力資源緊缺的時代,這一突破極具意義。

在第二代産品成型後,神龍這幫人就奔走呼号,邀請阿裡巴巴内部的各個業務團隊“吃狗糧”——不僅要多用阿裡雲,還要認準神龍雲伺服器作為底層的阿裡雲。

阿裡巴巴内部使用神龍雲伺服器的雲計算,和外部客戶買阿裡雲的流程是一樣的,特别簡單,隻要在網頁上點幾下,就相當于過去采購了幾千台機器搬到機房。

時間來到2018年雙11,投入戰鬥的神龍雲伺服器已經初具規模,團隊再次嚴陣以待。

雖然對自己的技術有信心,但這畢竟是神龍第一次抵禦這麼大的流量洪峰,大家心裡還是很緊張。

所有人都圍在“作戰室”,盯着神龍的背景資料。結果,神龍雲伺服器的CPU占用率非常平穩,幾乎是一根直線,像假的一樣。據估算,2018年雙11當天,大部分雲部分峰值流量都是神龍雲伺服器扛下來的。

阿裡造“神龍”

不僅如此,在有些業務中,用神龍的虛拟化架構,比直接用實體機還快。雖然這看起來不科學,但其實也在團隊的意料之中。

因為阿裡雲的很多業務是跑在時下正流行的“容器”中,而容器技術有個顯著特點:它本身是基于雲架構設計的。

是以,本來容器技術跑在雲架構裡就比實體機裡更如魚得水,加上神龍機本身的計算性能和實體機一樣快,整體的性能就超越了實體機。

這一仗打得漂亮。

阿裡造“神龍”

(五)

2019年春節回來,行癫又組織技術長老們開了一次重磅會議。

這次會上,他又提出了一個非常激進的計劃——“從此刻開始,全集團不再購進一台實體機,所有新增計算力全部上阿裡雲”。

就在2019年4月。集團又釋出了一條新的決定:

集團上雲,全部采用神龍雲伺服器架構。

從2009年創業,到現在已經10年,阿裡雲服務了上百萬家客戶,但多數企業出于嘗鮮的目的——把驗證性的工作放在雲上,生産任務仍舊在自己的環境裡,換句話說,還不夠相信雲足夠靠譜。如今,阿裡巴巴宣布所有業務上雲,是對阿裡雲技術實力的最高認可,也給了全行業做出了信心表率。從王堅以來,一代代技術人,終于守得雲開見月明。

在這之後,神龍一路狂奔,在2019的杭州雲栖大會上,第三代神龍釋出。經過實測,第三代神龍作為底層架構的雲計算,絕大多數名額都優于傳統架構的雲計算。所有人都意識到,這是一個可怕的“新物種”。

馬不停蹄,時間又沖向了2019年的11月11日——“雙11”。

這一年雙11,總成交額定格在了2684億,比上一年暴增四分之一。就在24點的最後沖刺之前,從舞台暗區走上來一個神秘人,他就是行癫。作為阿裡巴巴技術帶頭人,他居然是第一次從雙11的幕後來到聚光燈下。

他開心到連自我介紹都有些語塞,但這是我所見過他最暢快淋漓的演講。

峰值每秒544000筆訂單,沒有任何抖動,阿裡雲承載阿裡巴巴自己100%的核心系統,這個是我們全球第一個做到的!從此以後,所有使用者都可以更放心地把自己的核心系統放在阿裡雲上!

那一刻,他仿佛代表身後無數技術人,暫時忘記代碼的嚴謹和硬體的低調,隻是享受聚光燈的溫暖。

阿裡造“神龍”

事實也正是如此,基于神龍架構的雲服務不僅大規模應用于淘寶、天貓、菜鳥等業務,還吸引了一大批擁趸客戶:上汽、吉利、曠視科技,不一而足。

而這次技術變革帶來的影響正在迅速蔓延,全球雲廠商都在跟進采用類似的技術路線,中國創造的“神龍”正在成為伺服器的世界标準。未來一旦全世界雲計算廠商疊代結束,節省的計算資源會是一個天文數字。

阿裡造“神龍”

三年曆程,神龍雛形初現,凡此劫難,九死一生。

哪怕倒退五年,可能也絕不會有人想到,阿裡巴巴這家電商基因的公司,會有勇氣跳入泥潭,花費數億投入去研發網際網路底層的單元——伺服器。而且一出手就不是世界上的“又一台”伺服器,而是“另一種”伺服器。

但站在曆史的岸邊,完整目睹變遷的過來人也許能體會,阿裡造物,真正的幕後推手是“時代”二字。

我在《阿裡雲的這群瘋子》裡寫到,當年阿裡雲的建立,就是因為阿裡巴巴面臨越來越重的伺服器和存儲負擔。時任阿裡巴巴首席架構師王堅給馬雲算了一筆賬,如果不上雲,單單購買IBM的小型機和Oracle的資料庫,就能讓阿裡巴巴破産。

而一代技術總會遇到規模瓶頸。技術競争正如更新打怪,你跑得比别人靠前,就比别人更早遇到這一關的大BOSS。

當年那代阿裡雲人,從第一行代碼開始,寫出了阿裡雲底層排程系統“飛天”,成功幹掉了那個年代的大 BOSS。旭卿這代人登上舞台時,阿裡雲服務的人越來越多,場景越來越複雜,新的 BOSS 就在眼前。

真正的技術人,其實從來沒有退路。

前路總會荊棘坎坷。坐在原地,可能一生至死都不會遇到驚濤駭浪。但那些遠處的峻峭風景,也随之在你生命的可能性裡永久消失。

正如《約翰·克利斯朵夫》所寫:人生是一場不停的,無情的戰鬥。向前,向前,永遠不要停。

在之前的故事裡,我曾經埋下一個伏筆,那就是神龍伺服器的那塊核心晶片。我說那片 FPGA 是現成的可程式設計晶片,是個“妥協方案”。

于是你可能想起,2018年雲栖大會,阿裡巴巴宣布了一件大事,那就是成立了自己的晶片公司“平頭哥”。

阿裡造“神龍”

過去幾個月,平頭哥連續釋出玄鐵、無劍、含光。

于是,中哥有了一個大膽的猜想。經過從阿裡雲内部多方打聽,我确信了一點:平頭哥正在研制的晶片中,至少有一款将要用在神龍雲伺服器中,替代之前旭卿一直在使用的妥協方案“FPGA”。

也就是說,下一代神龍雲伺服器将會搭載一顆阿裡巴巴自研的晶片。

粗略算來,僅僅阿裡巴巴一家公司,利用阿裡雲提供的服務就可以觸達十億人,而在阿裡雲上,還有幾百萬其他客戶,他們同樣可以觸達數億人。加總起來,神龍伺服器中平頭哥晶片所能影響到的人次,将突破十幾億。

那将是中國晶片的裡程碑。

那也将是下一個故事。

飛鳥掠過這片古老的大地,此時此刻,正有無數中國人自己設計的神龍伺服器,從各條生産線上噴湧而出,構築起我們生存在這個星球上堅如鋼鐵的計算力。

身處時代大潮中,人們往往不會注目那些英雄們的身影。隻有當世界終于被改變,你我才會在餘晖的岸邊回首舊日,恍然想起那一個個閃亮的瞬間。

原文釋出時間:2019-11-13

文章來源:史中

本文來自

淺黑科技

,了解相關資訊可以關注“

繼續閱讀