受訪者介紹:子柳,2004年加入淘寶網,曆任開發工程師、項目經理、産品經理、測試經理。2009年創辦了“淘寶技術大學”,培養内外部工程師衆多,人稱“校長”。2014年5月,子柳離開阿裡,成為一名天使投資人。
2012年11月11日,191億元“奇迹”誕生前,正當許多買家正在享受購物狂歡時,突然一條這樣的提示資訊出現在眼前:我們的系統檢測到您所在的網絡對淘寶網的通路請求過于頻繁,很抱歉,現在暫時無法處理您的請求,請您過一段時間後再來通路。“系統崩潰”以及“支付癱瘓”随之被傳播。
殊不知道,這其實是故意的。因為我們要調控全局,是以進行了一部分限制。例如說,一瞬間買家的通路流量實在太大了,原本我們準備了3個t,當到達2個t還在迅速增長的時候,我們判斷這有可能超出我們的承受能力範圍,是以,我們必須關掉一部分流量。如果不做限流,不讓一部分人先等等,可能會導緻全盤系統的癱瘓。
這不是故障。淘寶技術經過了2009年至2012年這幾年時間的發展和更新後,早已具備了經受各種考驗的能力。
淘寶技術這十年
2008年以前、2008年至2012年、2012年以後,這是淘寶技術發展的三個重要時間節點。
2008年以前,淘寶的系統不論是技術難度還是架構難度都不是特别大,因為那個時候的流量、資料量,使用常用的技術手段就能解決。例如業界常用的解決方案ioe(ibm的小型機、oracle的資料庫、emc的存儲)能夠幫我們支撐10億左右的通路量和10億級别的資料量。從最初的一台普通的伺服器到2008年幾千台伺服器加ioe解決方案,支撐了我們最初5年的發展。
但是到了2008年前後,我們有些問題就沒有人能夠找到現成的解決方案了。例如我們的商品圖檔,一開始放在了本地硬碟上,2004年本地放不下了,買了netapp公司推出的專業的nas裝置,随着圖檔數量的不斷增長,我們找netapp公司買的裝置越來越進階,到2007年的時候,我們發現他們最好的伺服器已經賣給我們,沒有更好的了。但是使用者還是不停的要上傳圖檔,怎麼幫他們解決呢?
别人無法解決,并不代表這個事情無解,淘寶的技術就在這個時間點上面從使用别人的技術轉變成了自己創造技術,馬總說過“用錢能解決的問題都不是問題”,我們在2008年前後到了“用錢無法解決問題”的時代。幸運的是,我們解決這些問題并不是從頭做起的,我們并不是“開拓者”。國外的google、facebook他們都已經嘗試過自己解決技術上的問題,而且他們解決了之後,會把原理開放出來分享給大家(這是我們非常尊重這些企業的原因)。
于是,淘寶的技術牛人在此基礎上就嘗試着去做分布式存儲、資料庫、中間件、負載均衡這樣一套電子商務作業系統。之後,經過2009年至2012年期間一系列大型活動的洗禮,這套系統已經非常成熟。解決了原本用錢也解決不了的問題後,淘寶技術開始走向開放。這時候不僅僅是要把淘寶自己建設好,很多技術的探索成果我們也開源出去讓大家使用,來幫助我們的商家甚至競争對手。從技術角度來講,淘寶對整個業界技術水準的提升有很大的推動作用。淘寶在這幾年間,也從一個技術不被談及的公司走向了技術型公司,影響力大大提高。
到了2012年雙十一之後,淘寶技術體系又将走向何方,其實是很難想象的一件事情。除了軟體、應用系統開發外,還有大資料相關的研究,用雲計算技術來提升整個電商生态圈的資訊化能力,系統底層的持續優化等等。我們現在可以利用淘寶的資料告訴商家現在流行什麼,哪個地方的人喜歡買什麼樣的商品,用大資料給他們的生産和銷售做資訊支援;我們提供了一個名叫“聚石塔”的電商雲工作平台,讓商家把各種工作軟體部署進來,實時對接淘寶的資料接口,享受和淘寶一樣安全穩定的運作環境。這樣可以把很多線下手工操作的事情直接線上處理掉,有遠見的商家甚至已經開始利用雲計算來整合自己的供應鍊系統了;我們還有人修改linux核心,定制伺服器硬體,開發智能的部署方案,讓系統運作更加綠色高效。未來主要是圍繞大資料、雲計算和智能化這幾個方向發展了。
資料不會說謊
技術是為資料服務的,資料可以開發出去,外面的資料也可以回流回來。按照馬總的說法,我們現在變成了一個資料公司。
“大資料”的說法非常響亮,以至于現在誰提起大資料都感覺有些俗氣了。但是,大資料是很好的東西。
大資料為什麼好?恰恰是因為它“大”。有個說法,最近10年人類所創造的資料占到人類有史以來所創造資訊的90%。以前記載在紙上、竹片上,承載能力非常有限,現在都記錄在網際網路上,是以資料非常龐大。
資料大了之後,有了搜尋引擎,也有個更多可能的出現。有一個很經典的案例,說是通過谷歌的搜尋引擎可以預測什麼地方有流感。怎麼預測呢?一般發生流感的時候,會有很多人在谷歌搜尋“流鼻涕怎麼治”。此時,谷歌通過統計分析,便可以得出哪個地方搜尋類似關鍵詞的人更多,判斷出此地發生流感的機率可能更高。這樣的反應速度比傳統的疫情機制反應速度要快很久。
還有一個好玩的例子,某景區從原先的免費開放改為收門票之後,雖然網上抗議聲一片,但他們官方還是宣稱他們的旅客數量在增長。我們知道的情況是什麼樣的呢?利用淘寶旅行上的資料,我們很明顯看到該景區酒店的訂單量起碼下降了一半。有時候,人們擅長于對内調查,對外“創造”結果,可是資料永遠不會說謊。
現在淘寶會定期公布一個資料,叫tcpi,淘寶物價指數。之前,淘寶隻有幾百萬使用者的時候,大家不敢做這個資料,即便你做了也沒人信。但是,基于現在的使用者數量,進行這個資料統計分析後,它很受重視,甚至有些政府部門也很重視。他們也看到了,我們依賴資料做出來的統計更加高效,而他們自己則需要動用大量的人力、物力,通過長時間的調查可能才能得出這樣一個結論,淘寶技術人員寫了個資料模型,把淘寶交易積累下幾十個t的資料放到伺服器上運算,一個晚上就能分析出來了。這,就是大資料的威力。
對商家來說,商家随時可以利用大資料指導商業生産,例如幫助商家做生産預測。打個比方,對“今年流行長裙,短裙還是熱褲?”的問題,每個人的看法可能不一樣。而淘寶幾億使用者購買行為的實時資料是開放的,商家通過淘寶指數對比一下,結果就出來了。一對比發現,其實今年長裙最受關注。這時候,商家拿這些資料給生産女裝的廠家,就可以做出這樣的決策:生産熱褲的生産線不要多投精力,趕緊做長裙。這就是用資料說話。在十年前,誰也拿不到這些資料,服裝的流行趨勢很多時候隻能依賴時尚雜志。現在,不如看資料更直接,而能夠做到這一點,正是因為淘寶有比較大的使用者基礎,資料量大了之後,擷取的資訊才是貼近真實的。是以,将這裡面的資訊整合起來,就可以看到最真實的情況。
無限的資料,創造無限的可能。
原文釋出時間為:2014-07-22
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号