天天看點

阿裡雲「敢死隊」

作者:雷峰網
王堅、胡曉明、劉振飛、李津、汪海、唐洪、張東晖、徐常亮、湯子楠、林晨曦、馮春培……緻敬雲計算時代的使命驅動者。

作者丨梁程敏

編輯丨王亞峰

2011年,胡曉明,阿裡金融掌舵者,獨自坐在辦公桌前,眉頭緊鎖,臉上寫滿憂慮。

阿裡金融正面臨着一場巨大的困境,源頭是那幾個小時就崩潰一次的阿裡雲。

胡曉明盤算着如何跟馬雲表達自己對阿裡雲的真實想法。

終于,他開口了,他試圖用一種試探卻又笃定的口吻表達了自己的态度:“我可不可以不用阿裡雲?”

“既然你先前做出了選擇,那就得像結婚一樣。現在你說不願意嫁,有什麼用呢?繼續忠誠地履行你作為王堅博士小媳婦的責任吧。”果不其然,馬雲依舊用他最擅長的類比句式打發走了胡曉明。

2011年12月31日晚,開完年終大會的胡曉明,帶着被飛天報警鈴聲折磨到神經衰弱的阿裡金融高管們,浩浩蕩蕩來到阿裡雲。

“我們十分支援阿裡雲的發展。同時,我們很希望在2012年春節期間,阿裡雲能夠確定我們能夠好好度過一個春節,不要在半夜被飛天系統的報警鈴聲吵醒還得起來工作。”

這番話說出了阿裡金融所有人的心聲,現場一時鴉雀無聲,氣氛凝重而尴尬。

緊接着,更加令人震撼的畫面出現了——胡曉明和阿裡金融高管集體俯下身子,向王堅和阿裡雲管理層無言鞠躬。

究竟,阿裡雲與阿裡金融乃至淘寶的相愛相殺,是如何拉開帷幕的?

(1)飛天不穩定,林晨曦孫牧舍命死扛

2009年,“飛天”穩定性和功能還略顯稚嫩,林晨曦靠着三寸不爛之舌,從集團其他業務線,拉來了十個“内部客戶”,運作在飛天上。

然而,不争氣的飛天頻頻故障,每隔幾小時就崩潰一次,于是,來自各業務線的雷霆怒火對準了王堅,他們對王堅進行狂風暴雨式的指責。

十個部門,一個部門投訴一天,輪一周都輪不完,王堅承受着前所未有的壓力和内疚。

思痛後,王堅做出一個艱難決定——将十個内部客戶減少到四個,阿裡金融将作為重點服務對象。

那段日子,阿裡雲D座四樓的會議室被調侃成“鐘馗道”,員工時不時會被拽進去讨論一些棘手問題,就像鐘馗抓鬼一樣。在“鐘馗道”,王堅曾連續數個小時責罵團隊成員,乃至拍桌子摔手機。

“博士壓力很大,但依舊拍胸脯跟馬老師說一切沒問題。結果每個業務部門投訴不斷。”這或許正是王堅發脾氣的原因。

而承受王堅脾氣的人,首當其沖就是負責飛天系統的林晨曦。由于飛天系統一直不穩定,林晨曦頻繁光顧“鐘馗道”,成了王堅的“受氣包”。

而孫牧也因同樣原因被“出氣”。

當時,阿裡巴巴有兩座雲梯:雲梯1是基于一些已有開源軟體Hadoop為基礎而進行研發資料計算系統;雲梯2則是基于“飛天”完全自主研發的資料計算系統,也就是後來的ODPS。

公司原計劃于2009年年底用雲梯2取代雲梯1,然而飛天系統的不穩定讓這一理想化成泡影,“雲梯2切換雲梯1”項目經理孫牧,遭遇到降職處分。更多幕後故事,添加作者程敏微信 LCMfancyworld 了解。

在項目複盤會議上,王堅發表了一句令人印象深刻的言論:“我一定要把飛天做好,除非公司不再做雲計算了!”

孫牧站在那裡,雖已遭受降職打擊,但他依然信誓旦旦:“我會一直留在阿裡雲,我保證不離開阿裡雲!我對飛天系統的未來充滿了希望,我願意繼續與團隊共同努力,就算讓我寫文檔,我也願意繼續與飛天一起戰鬥!”

阿裡雲「敢死隊」

飛天團隊照片

(2)胡曉明上告馬雲,無言鞠躬王堅

雖然林晨曦和孫牧舍命死扛,奈何事故依然不斷,王堅也逐漸意識到阿裡雲穩定性必須提升,否則僅存的四個客戶也會不可避免地流失。

當時阿裡雲四大客戶之一的阿裡金融,由胡曉明執掌。

胡曉明在人際關系上頗有手段,以其遊刃有餘的表現,在公司内部擁有不錯的口碑。

有一次,胡曉明和一位P7員工一起去拜訪客戶,由于時間緊迫,胡曉明讓秘書買了兩份炒面,他們端個紙盒,蹲在路邊匆匆吃完,緊接着就火急火燎去見客戶了。

據說,胡曉明非常敬重王堅,在接管阿裡雲之後,經常清晨去到王堅家登門拜訪,傾聽他在關鍵事務上的意見,并在内部幫博士說好話……

這些微小舉動,漸漸把“接地氣” “情商高”“上下相容”等标簽,貼在了胡曉明身上。

然而,即使如此“會做人”,胡曉明在與阿裡雲的“聯姻”過程中,依舊磕絆不斷,甚至想“毀婚”。 (加作者程敏微信 LCMfancyworld,交流你所知道的胡曉明)

最初,馬雲強烈要求胡曉明必須選擇阿裡雲作為阿裡金融的基礎設施。

胡曉明接受了這個安排,但他的手下王安全持對立态度,甚至表示絕不使用阿裡雲。

确實,技術出身的王安全有大條道理反對,畢竟使用Oracle更符合金融行業的“祖訓”:安全、穩定、可靠。

然而,胡曉明非常強硬,他堅持要用阿裡雲,近乎逼迫着王安全說:“不用(阿裡雲)也得用,就算死,阿裡金融也要死在阿裡雲上。”

與王安全持有同樣立場的還有工程師蔣傑,他後來離開支付寶加入騰訊,并成功開發了一套系統,替換掉了朱會燦的台風系統。

話雖如此,胡曉明當然不希望阿裡金融因為阿裡雲而死在自己手上。

問題随即而來。

阿裡雲給阿裡金融帶來諸多麻煩:資料報告出現錯誤,貸款發放速度滞後,機器故障無法開展新業務等等。

胡曉明開始後悔,決定找馬雲投訴。

于是,文章開頭那一幕就上演了:馬雲婉拒胡曉明,告訴他回去好好做王堅的小媳婦。

胡曉明沒想到的是,更嚴重影響還在後頭。

一天清晨,阿裡金融準備發放貸款,卻發現無法擷取使用者的信用額度資訊。

信用額度是指使用者可以借款的最大額度,如果借款金額低于信用額度,就無需繁瑣的審批流程,直接将款項打入使用者賬戶。

然而,信用額度的計算是在阿裡雲進行的。一旦系統崩潰,就無法準确計算信用額度,進而無法發放貸款。

對于阿裡金融來說,這是一場極其嚴重的業務事故,因為其業務的商業邏輯正是基于大資料的計算來實作借款的快捷性和簡便性。

換言之,資料計算是它們擷取利潤的關鍵。一旦無法進行資料計算,每一天都會造成巨大損失。

此時,阿裡金融和阿裡雲團隊都陷入了恐慌之中。

對于阿裡金融團隊來說,猶如背着一顆定時炸彈,随時引爆更多損失,但他們無計可施,隻能被動承受。

而阿裡雲團隊也岌岌可危,他們倉皇奔走,手忙腳亂尋找故障根源,奮戰到天明排除故障。

胡曉明在一片混亂中,寫了一封郵件詢問馬雲:“可不可以放過我?能不能不用阿裡雲?我自己搭建Hadoop團隊解決問題。”

馬雲再次毫不猶豫拒絕:“不行,你可以死,但阿裡雲不能死,必須繼續使用阿裡雲。”

事實上,胡曉明并非對阿裡雲持有懷疑和不滿的個例。

阿裡内網上曾有一篇文章引起了軒然大波,對阿裡雲的可行性提出了質疑。文章内容直言不諱:馬雲,你被王堅忽悠了,阿裡雲根本不可能實作!不久之後,這篇文章迅速獲得了超過2000個點贊,成千上萬的員工加入了批評阿裡雲和王堅的行列。

就在一片漫罵聲中,馬雲親自在文章下方回複:“博士是人,不是神!博士的不足大家知道,但博士了不起的地方,估計很少有人知道。假如,十年前我們就有了博士,今天阿裡的技術可能很不一樣。”

為了給王堅和阿裡雲打氣,馬雲還在阿裡集團年會上表态:“我每年給阿裡雲投資10個億,投10年,做不出來再說,這是公司的戰略。”

這番決絕的言論,昭示着馬雲從一開始就對雲計算志在必得的決心,以及對王堅的無限信任和追求革新的不懈執着。

然而,質疑阿裡雲的聲音并未就此消弭,反而在2011年最後一天達到了頂峰。

2011年12月31日,胡曉明與阿裡金融團隊召開年終總結大會。

會上,工程師陳鵬宇向胡曉明回報了阿裡雲的極其不穩定,每天都需要處理大量報警。為了緩解這種壓力,陳鵬宇将報警鈴聲設定成他孩子的笑聲,進而苦中作樂。每當聽到孩子的笑聲,他便立即起身處理報警。

聽完這番回報,胡曉明深知,如果阿裡雲系統持續如此不穩定,阿裡金融的業務必将繼續陷入危機,甚至有倒閉的風險。

就在這個節骨眼上,胡曉明拿出一種更加激烈的方式表達他的無奈。

當晚,他帶領阿裡金融高管浩浩蕩蕩來到阿裡雲,面對反複的系統崩潰,他異常冷靜地說道:“我們十分支援阿裡雲的發展。同時,我們很希望在2012年春節期間,阿裡雲能夠確定我們能夠好好度過一個春節,不要在半夜被飛天系統的報警鈴聲吵醒還得起來工作。”

這番話說出了阿裡金融所有人的心聲,現場一時鴉雀無聲,氣氛凝重而尴尬。

接着,一幕更加令人震撼的畫面出現了——胡曉明和阿裡金融高管,向王堅和阿裡雲管理層無言鞠躬。

無言鞠躬想傳達兩層意思:

首先,阿裡金融使用阿裡雲是公司的戰略,是以阿裡金融不得不用。

其次,阿裡雲做得這麼爛,但又不得不用,現在阿裡金融已經被逼到了牆角。我命(阿裡金融)由天(阿裡雲)不由我,我來向你們鞠躬,你們看着辦。如果問題不解決,阿裡金融隻能關門大吉了。

這一幕,觸動了王堅,“我們對不起阿裡金融的兄弟,”王堅眼眶泛紅。

半夜12點,王堅緊急召集阿裡雲高管,展開激烈讨論,共同商讨解決方案。

由于王堅向來喜歡半夜開會,故阿裡雲會議室被戲稱為“夜總會”。

“要人給人,要錢給錢,我們全力以赴解決問題!”王堅親自拍闆,好大陣仗。

幾十号人聲勢浩蕩,在“夜總會”通宵達旦,頭腦風暴,苦思冥想,腦洞大開,方法終于有了!

他們的方案是這樣的:

第一,建立“專項工作組”,委任徐常亮為“專項工作組”組長,并成為服務阿裡金融的第一負責人,上一任負責人劉侃被調任。與此同時,大資料計算引擎将采用徐常亮團隊打造的“幹将莫邪”技術路線。這支隊伍将常駐阿裡金融,全面了解他們的需求和痛點,第一時間作出響應和改進。

第二,投入更多資源和人力來提升阿裡雲的穩定性,包括對伺服器和網絡裝置進行更新,加強監控和故障處理能力,加大對技術人員的教育訓練和招聘力度。

可第二天一早,徐常亮就得知昨晚通過的“幹将莫邪”技術路線方案,竟然被否決了。

(3)權力交鋒,徐常亮向王堅索要最大兵權

采用“幹将莫邪”方案,是内部集體讨論和投票決定的,徐常亮沒有想到第二天就會被推翻,難道王堅有了新的想法?

其實阿裡雲的大資料計算引擎,同時在跑兩套技術方案:一套是徐常亮團隊借助Hive SQL的殼打造的代碼生成系統“幹将莫邪”,另一套是孫冰團隊研發的“SQL Engine”。兩種路線都有各自的優缺點。

孫冰團隊技術過硬,經驗老道,但“SQL Engine”在靈活性和快速疊代性方面有待提高。

阿裡雲「敢死隊」

孫冰題詞《钗頭鳳》

而徐常亮團隊利用代碼生成方式,“幹将莫邪”能夠較快實作新功能,階段性效果占優勢。

王堅其實傾向選擇自研成分更高的“SQL Engine”。(更多兩條技術路線争鋒故事,可添加作者程敏微信 LCMfancyworld 交流。)

徐常亮和孫冰兩人私下裡相處融洽,一緻認為技術路線應該由項目第一負責人全權把控。

“如果讓我來擔任第一負責人,技術路線就由我來決定。要是非要采用其他方案,那我可就不幹了!”徐常亮直言不諱地對王堅說。

之後有一次王堅趕飛機,特意讓徐常亮陪同前往機場。一路上,王堅語重心長勸說:“技術路線選擇要謹慎,兩種路線切換成同一種路線要一步步來,不能操之過急。”

“我一定會權衡全局,漸進式切換。”徐常亮回應道,“具體的切換過程,交給我來拿主意就是了。”徐常亮的果敢和擔當,赢得了王堅和團隊的信任。

在這個時候,作為團隊上司的張東晖也在推動組織和文化層面的融合,加速兩條技術路線1+1>2的效果。與此同時,張東晖帶着15年的微軟工程經驗,在那兩年幫助飛天版本收斂,推動版本釋出走上正常疊代節奏。

随後,徐常亮着手籌備相關工作,作為服務阿裡金融第一負責人,挑戰才剛剛開始。

(4)阿裡金融水深火熱,湯子楠及時雨救火

那些日子,徐常亮帶領着阿裡雲五十多個兄弟,在阿裡金融門口常駐,無縫對接,全天候解決問題。

其中之一是湯子楠,他一直在北京辦公,但在2012年1月3日,他特意乘坐了北京飛往杭州的第一班飛機,加入了專項工作組。

在湯子楠記憶中,胡曉明是個十分“有意思”的人。湯子楠和其他兄弟阿裡金融辦公室讨論問題,胡曉明每次經過都沖着大夥們笑,然後回到自己辦公室,泡幾杯香茶,親手送到攻堅一線。

就這樣,湯子楠、徐常亮和其他專項工作組的同僚全力以赴,他們擴容了系統,提高了計算效率,修複之前的Bug,開發新功能,解決阿裡雲的穩定性和性能問題。

“這回阿裡金融兄弟們大寫滿意。我們幾乎就直接住在公司了,7×24小時解決問題。”徐常亮說。

“這場戰役,實在太值得回味了!兄弟們團結一心,共克時艱。”湯子楠感歎。

阿裡雲「敢死隊」

阿裡雲團隊和阿裡金融團隊

随着時間推移,阿裡雲性能越來越穩定,對阿裡雲懷疑的聲音也日漸式微。

然而,大淘寶的員工仍然對阿裡雲持懷疑态度。

汪海作為大淘寶的負責人,與馬雲進行了一次經典對話。

馬雲笑眯眯地走到汪海(七公)旁邊,問道:“七公,明年大淘寶有什麼計劃呀?”

汪海深知馬雲這個問題背後想要的答案,他思考片刻,決定順水推舟:“馬總,明年我們最重要的任務就是将大淘寶遷移到阿裡雲。”

馬雲聽後心情大好,拍了拍七公的肩膀便離開了。

提到汪海,他在大淘寶員工心中是一個仗義俠客形象。

有一次,他所管理的服務機叢集之一,大約有幾百台機器,使用的是SQL Engine進行安裝,但下屬誤用了ODPS進行了安裝,導緻資料丢失。更緻命的是,這些機器中還存放着流量統計的資料。

下屬犯錯,汪海毫不猶豫,挺身而出,承擔責任,接受降級處理,可謂大義凜然。(幕後故事尤為精彩,添加作者程敏微信 LCMfancyworld 了解)

然而,盡管“用阿裡雲”這個決定來自大義凜然的上司,大淘寶員工仍不願意聽從。

雖然他們也看到阿裡雲有了長足進步,但在他們眼裡,阿裡雲依舊隐患重重,無法承載關鍵任務。

一時間,争議和疑慮在大淘寶内部蔓延開來。

事實上,大淘寶使用阿裡雲并沒有明顯好處。因為使用阿裡雲的好處是整體性的,而不是展現在單一的業務部門。隻有當阿裡巴巴的所有業務部門都使用阿裡雲時,才能發揮出大約30%的成本節省效果。

打個簡單比喻:

阿裡雲就像一個電廠,每個業務部門都有自己“發電機”,可以獨立發電。當整個電網達到一定規模的時候,成本可以降低一定的百分比,這就是規模效應發揮的效果。然而,在早期,這種優勢并不明顯。

一言蔽之:大淘寶有好處也不一定要用阿裡雲,用阿裡雲也不一定現在用,更何況大淘寶沒有直接好處。

很多大淘寶員工發出靈魂拷問:“有人告訴你,開着車換引擎,換了引擎不一定比原來跑得快。你換嗎?”

或許,這個靈魂拷問實在太難回答,大淘寶一度左右為難,猶豫不決,遲遲未能遷移到阿裡雲。

然而,到了2012,情況發生了變化。

(5)神人多隆與蝙蝠俠并肩,護航5K

随着大淘寶資料的急劇攀升,原用的底層計算系統“雲梯1”已經力不從心。

首先,雲梯1已經達到了2000個節點的極限,難以滿足大淘寶日益增長的資料需求。

其次,雲梯1系統無法跨機房同步資料,隻能在一個機房内運作資料,單個叢集更是受限于5000台伺服器上限。一旦達到5000台的限制,就無法再增加機器,這可能導緻業務無法繼續擴充,或者需要停止業務來進行遷移資料。

這兩點都會嚴重制約大淘寶的業務發展。

一方面,需要滿足大淘寶的需求,底層計算系統必須有能力獨自排程 5000 台伺服器的能力。另一方面,需要彌補雲梯1的緻命缺點。那麼,大淘寶别無選擇,隻能轉向雲梯2(飛天),轉向阿裡雲。

盡管大淘寶之前有種種顧慮,但是面對迫在眉睫的業務瓶頸,不換也要換了。

為了保證大淘寶順利遷移到阿裡雲,公司啟動了5K項目。

5K項目是阿裡發展曆程中極為濃墨重彩的一筆,它是為了解決阿裡雲飛天叢集超過5000台機器的問題而專門成立的項目。飛天叢集在創立之初并沒有預料到,阿裡的業務發展如此迅速,這麼快就産生了如此龐大的資料,需要用到5000台機器的叢集。

簡單來說,5K項目要做的事就是把機房裡的5000台機器當做一台來使用。“你扔1PB資料進去,它能夠自己排程和計算,計算完再把結果合并統一輸出。”這個過程聽起來不複雜,真正要實作卻非常困難,中間涉及到大量複雜的排程算法。

為了確定5K項目成功,數百名頂尖工程師投入了長達數月的艱苦攻關。其中包括劉振飛、汪海、唐洪、張東晖、徐常亮、湯子楠、林晨曦、孫冰、王樂珩等一衆優秀骨幹。

在5K項目中,團隊面臨着一個令人擔憂的問題:5000台機器的網絡通信會不會導緻整個資料中心的崩潰?

這時候,工程師多隆找到了一個巧妙的解決方案。

多隆的方案是在規模上升之前,将一台機器模拟成多台,以降低成本。通過多隆的實驗和設計,這個問題在一個月内得到了解決,使得從2000台更新到5000台的過程非常平穩,沒有發生網絡風暴。

多隆是技術大神,他熱愛編寫代碼,喜歡沉浸技術世界;淘寶遇到問題時,多隆總是能夠在最後一刻恢複系統,讓其他人瞠目結舌;多隆有能力直接線上熱改,不跑測試,突破所有傳統工程紀律,時常帶來意想不到的結果。

多隆技術天才的形象在多位從業者口中栩栩如生。

為了確定5K項目順利進行,公司還專門抽調了一批技術人員值夜班,其中包括海公、無戈、介然、仲離、伯虔等人。

他們有一個統一的名字——“Batman(蝙蝠俠)”。

阿裡雲「敢死隊」

蝙蝠俠在值夜班

蝙蝠俠肩負着確定資料産出穩定性的重要任務。除了日常維護工作,蝙蝠俠們還有一個“特别任務”:每天早上6點,他們需要向馬雲發送一條短信,内容包括過去一天的盈利情況、成本和門店數量等經營名額。

這個“特别任務”對于蝙蝠俠們來說至關重要,因為必須在規定時間内完成整個資料處理流程,才能準時發送短信。

為此,蝙蝠俠專門設定了報警系統,以便能夠及時發現和解決作業執行中可能出現的問題。

那是一個不平凡的夜晚,當蝙蝠俠們值班時,突然傳來警報。原來,執行任務的速度異常緩慢,報警系統被迫拉響了緊急警報。

經過緊張排查,蝙蝠俠們很快發現了罪魁禍首 —— 一場看似平凡的淘寶商家營銷活動,竟然導緻了資料的嚴重傾斜,進而拖累了後續任務的執行效率。最令人擔憂的是,如果這種情況持續下去,甚至可能導緻次日早上6點前,關鍵報表資料無法按時計算完成。

面對危機,蝙蝠俠果斷出擊,他們重新對資料進行分片并修改了1000行SQL代碼,最終在30分鐘内解決了問題。

這次事件之後,蝙蝠俠的名号便在公司内部響徹雲霄,代表着勇氣、技術和責任。

那時候,隻有最優秀的工程師能夠成為蝙蝠俠。正是這些蝙蝠俠的努力,才保障了整個集團對資料的應用。

包含蝙蝠俠在内的5K項目團隊以周為機關緊急推進項目進度。回憶起那段歲月團隊成員無不自嘲:“起早貪黑,仿佛一個月都沒有見過太陽,我們不得不全力以赴完成這個項目。”

就這樣,曆經半年如火如荼的工程奮戰,阿裡雲團隊終于完成了5K項目,将大淘寶的海量資料全部遷移到了ODPS平台上。

(6)馮春培抛橄榄枝,開啟支付寶ODPS遷移之旅

5K項目後,負責阿裡集團運維的劉振飛找到徐常亮問道:“我們是時候完成2009年定下的'登月'目标了嗎?”

徐常亮笑着回答:“是的,現在差不多就是時候了。”

阿裡雲「敢死隊」

徐常亮題詞《雲梯》

原來,早在2009年,阿裡巴巴就制定了一項宏偉計劃——“登月計劃”,意在将集團内所有開源資料叢集全部遷移至統一的ODPS平台之上,進而提高資料處理效率和穩定性,為業務發展提供支援。

當時,大家還在四處物色能夠成為“登月一号”的先鋒部門。

就在大家積極搜尋之際,正在北京出差的徐常亮接到一通電話,電話那頭是支付寶負責人馮春培。

原來,随着2013年使用者和交易量的不斷攀升,支付寶的Hadoop叢集開始吃力了,亟需擴容。但這與阿裡巴巴“所有業務資料上ODPS”的整體戰略相悖,支付寶是以陷入兩難境地。

幸好,阿裡金融已在ODPS上穩定運作,表現出色。兩者的作業邏輯何其相似,全然可參考。于是,馮春培靈機一動,萌生了将支付寶遷移至ODPS的想法。

“不如就讓支付寶成為'登月一号'吧。”馮春培主動抛出了橄榄枝。

與此同時,湯子楠也主動勸說支付寶團隊:“ODPS的能力已經非常穩定,我們可以快速解決在遷移過程中遇到的問題。而且,一旦支付寶需要擴容,我們也能迅速實作成功的擴容。”

湯子楠的話增加了支付寶團隊對遷移計劃的信心。

支付寶成為“登月一号”後,湯子楠更是巧妙地“借勢”鼓勵支付寶團隊:“登月計劃是一個偉大的項目,支付寶正是參與這一偉大項目的團隊。”

經過一年半的努力,支付寶成功地将資料從Hadoop遷移到ODPS平台。這樣一來,支付寶不僅解決了資料量激增的問題,還實作了與阿裡巴巴整體戰略的完美契合。

2014年,整個阿裡内部的資料都統一存儲在ODPS實體叢集上,标志着支付寶ODPS遷移之旅的圓滿成功。(“登月”背後的部門争執,添加作者程敏微信 LCMfancyworld 獲悉)

支付寶接入ODPS是一個重要的裡程碑。作為金融應用,支付寶必須滿足嚴格的安全标準。為了滿足這些标準,ODPS在安全性方面必須擁有出色表現。

換言之,支付寶選擇遷移到ODPS平台,這是對ODPS安全性的重要認可。

在登月計劃中,數千名工程師接力前行,2015年7月1日,最後一個也是最龐大的資料孤島,用Hadoop搭建的雲梯1系統正式停止運作。

阿裡雲「敢死隊」

布滿工程師簽名的伺服器,來自最後一批下線的雲梯1伺服器

(7)難纏的部落格園,驚人的快手

“登月計劃”固然是阿裡雲的重大勝利,但要取得市場認可度,還有漫漫長路。

服務内部客戶,不過是初窺門徑。開拓外部客戶,才是真正決戰的沙場。

2014年,阿裡雲遇到了一個棘手的外部客戶——部落格園,一家部落格網站營運公司。盡管他們購買的伺服器數量很少,部落格園卻頻繁地對阿裡雲的産品提出質疑和不滿,給産品經理們帶來了很大困擾。

湯子楠記得,部落格園幾乎是“每天一怨”,今天說這款産品不行,明天又說那款産品不行。難纏得讓人絕望。

據說,王堅與部落格園老闆私交甚好,部落格園老闆好像特别敢于“瞎說大實話”,喜歡拿阿裡雲開刀,一直吊打阿裡雲。由于部落格園老闆也是一個部落格營運者,是以他經常在部落格上發表文章,介紹阿裡雲遇到的問題以及他們是如何解決的。

後來,王堅決定花錢購買部落格園所有關于阿裡雲問題的報道,并将它們編纂成一本名為《進步集》的冊子。

随後,王堅将《進步集》分發給阿裡雲的所有産品經理說:“這就是你們客戶的意見和評價,你們認真仔細看看。”

通過閱讀《進步集》,阿裡雲團隊看到了客戶提出的問題和不滿,以及部落格園是如何解決這些問題的。他們開始認識到,隻有真正了解客戶的需求和痛點,才能不斷改進産品并提供更好的解決方案。

“為了更好地與部落格園合作,阿裡雲開始定期舉行會議,聆聽部落格園的意見和建議,共同探讨如何改進産品。通過與部落格園的合作,阿裡雲逐漸改進了産品的性能和穩定性,滿足了部落格園的需求。”

湯子楠記憶猶新。

另一個令人印象深刻的客戶是快手。

與部落格園的“難纏”不同,快手讓人印象深刻的點是“發展迅速”。

起初,快手隻是阿裡雲的一個小客戶,專注于開發技術檔案編輯的小軟體。然而,大家目睹了快手在短短幾年時間從一個不知名的創業公司迅速成長為中國短視訊行業的領軍企業。

這一點從他們在阿裡雲上的IT消費上就可見一斑。快手每年的消費都呈指數級增長。

是以,所有人都争着為快手提供服務,因為他們的投入越來越多,成為阿裡雲的重要客戶之一。

“阿裡雲強調‘客戶第一’的口号跟早期經曆過的客戶不無關系。通過傾聽部落格園的聲音,阿裡雲改進了産品,并與客戶建立了更好的合作關系。同時,他們也意識到小客戶也可能會成長為重要的合作夥伴,是以對待每個客戶都要一視同仁。”

湯子楠總結。

當年造勢登月後的他繼而投身阿裡雲商業化。

5K成員王樂珩在項目結束後,同樣踏入商業化舞台,參與設計ODPS商業化計費方式。

他為ODPS先進且有趣的計費方式自豪:“ODPS是全世界最早采用代碼内的SQL來計費的産品,也就是即根據代碼的執行情況來計費。後來,Google BigQuery也采用了與ODPS完全相同的計費方式。”

從内部“造勢登月”到外部“全面商業化”,“敢死隊”隊員正一步步拓寬阿裡雲的宏偉版圖。

阿裡雲「敢死隊」

AY42是ODPS最早一個叢集,也是最早完成使命下線的叢集,陳鵬宇緻信懷念

(8)尾聲:阿裡雲的使命召喚

當年也有份造勢登月的徐常亮,經曆了阿裡雲早期多場戰役,走到了晉升P10的路口。

王堅向徐常亮提出了一個問題:“你這麼年輕就能達到P10級别,是否過早了呢?”

王堅之是以這樣問是有原因的。當時,阿裡雲隻有唐洪、李津等三兩人達到了P10,同期的蔣凡、無招也隻有P9。

徐常亮引用了王堅自己說過的一個故事回應:“博士,您曾經給我們講過一個故事,林彪為什麼23歲就能成為軍長?要麼是前任軍長戰死沙場,要麼是前任軍長受不了長征或者打敗仗跑了(平者讓賢,能者居之)。”

徐常亮的情況恰如林晨曦所描述的那樣。

據林晨曦回憶,早年的阿裡雲就像是一個軍隊,在攻占一個看起來不可能攻克的山頭,一批沖鋒者倒下了,下一批沖鋒者接着頂上。其實是很悲壯的,因為沒有人知道,未來到底能不能成功。壓力實在太大,很多人隻在團隊呆了半年就走了。

然而,作為“幸存者”的徐常亮沒有辜負這份機緣,他帶領ODPS團隊從最初十多人發展到三百多人。2016年年底,徐常亮将大部分業務轉交給新加入的周靖人,自己則轉戰新華智雲,開啟新篇章。

“那時候,阿裡文化很純粹,部門壁壘小,跨部門協作經常發生。大家擁抱變化,樂于合作,專注創新,同心協力,能者自然很快就會浮出水面。”

徐常亮說。

阿裡雲「敢死隊」

2016年雙十一,ODPS承擔全集團資料計算任務保障現場

徐常亮的說話讓筆者突然想起胡曉明面試關濤時的經曆。

關濤曾在是否加入阿裡雲的決定上,猶豫不決。當時,阿裡雲計劃建構基于ODPS的新一代資料平台,但他對阿裡雲在自主開發資料平台的決心不夠肯定,關濤擔心公司可能會随時決定轉向采用海外開源系統。

可胡曉明一番話給了關濤信心,“在雲計算領域,我們并不擁有CPU、硬碟或帶寬等硬體資源,而我們真正的優勢在于頂層的軟體。從IaaS到PaaS的各個層面都需要自主開發資料平台,才是我們要專注和發展的方向。”

那個時候,隻有隊伍充滿信念感、部門不樹高牆的企業,才能把自研推動下去,自研維艱,可更難的是能否讓内外部信任它、接受它,胡曉明雖非技術出身,但依舊相信并看見了自研的未來。

“阿裡雲讓我感受到了何為真正的使命驅動。”關濤說。

關濤還記得,阿裡雲西雅圖辦公室就在微軟辦公室對面,中間隔着一個草坪。當年面試時間安排在休息日的早上8點,在面試過程中,他發現阿裡雲的辦公室隻裝修了一半,另一半仍處于未完成狀态,用物品遮蓋着。這一切都與按部就班的美國IT公司很不一樣。

關濤感覺這家公司不太在意是周幾、什麼時間段,也不太在意面試場地是否完全準備好,這給他留下了務實接地氣的印象,随後關濤與胡曉明、唐洪等人相談甚歡,衆人思路一緻,志同道合,于是關濤決定加入阿裡雲,接棒徐常亮開始了ODPS 2.0之路。

阿裡雲「敢死隊」

2017年雙十一, ODPS數萬台叢集運作穩定,關濤現場發朋友圈

“能者居之” “使命驅動”,正因如此,阿裡雲成為了衆多卓越工程師心中理想的歸屬地。

随着時間的推移,曾在阿裡雲創業一線英勇奮戰的先行者們如流星般分散天際,有些追逐新的創業夢想,有些踏上其他領域的征途。然而,無論他們身在何方,他們的足迹和貢獻永遠被大家銘刻于心,不被歲月洪流沖刷。

多年前,他們以敢為人先的姿态,開拓雲計算領域,成功自研出了飛天和ODPS這些優秀産品。

回看當下,阿裡雲依然保持那股創新開拓的精神,并延續至目前吳泳銘極具英雄主義的“公共雲優先”戰略中:“阿裡雲全公司的唯一産品就是這張理想中的雲計算網絡,赢得競争需要我們在戰略方向上放棄雜念,堅決做取舍,集中我們最大的壓強,加大公共雲的産品和技術投入。”

阿裡,乃至整個雲計算界,需要一群“敢死隊”大膽擁抱公有雲激進主義。數百萬從業者受夠了當下不健康的ToB生意,沉睡了二十年多的黑暗,需要一場破曉。

這一次,我們繼續期待阿裡雲這群敢為人先、破釜沉舟的使命驅動者,推動中國雲計算行業邁向全新時代。

雷峰網将持續更新《阿裡資料驅動二十年》、《阿裡AI驅動二十年》系列,歡迎添加作者程敏微信交流:LCMfancyworld

雷峰網雷峰網雷峰網

繼續閱讀