天天看點

【阿裡飛天】飛天5K:開放比開源更有意義

【阿裡飛天】飛天5K:開放比開源更有意義

飛天5k紀念碑,背後是已經部署了5k的機房

到目前為止,隻有google、facebook這樣的頂級技術型it公司,其叢集規模有能力按照5000來劃分。今年8月,曆時4個月,阿裡集團涵括雲梯1空間優化與跨機房叢集擴充、以及雲梯2單叢集規模從1500台更新到5000台,同時實作跨叢集擴充的5k項目順利取得階段性成果。據悉,雲梯1和雲梯2都是阿裡集團處理海量資料儲存與計算的系統,前者底層為hadoop,後者底層為阿裡雲自主研發的飛天平台。今年上半年,雲梯遭遇了機房容量的限制。業務規模增長迅速,預計離線計算叢集将從現在的2個叢集6000多台,增長到6個叢集共21000台伺服器,單叢集規模要達到5000台。

【阿裡飛天】飛天5K:開放比開源更有意義

飛天是由阿裡雲開發的大規模分布式計算系統。飛天負責管理資料中心linux叢集的實體資源,控制分布式程式進行,隐藏下層故障恢複和資料備援等細節,有效的提供彈性計算和負載均衡的服務。

<b>據悉,飛天5k單點叢集擁有超過10萬核計算的能力、100pb存儲空間,可處理15萬并發任務數,承載億級别檔案數目。同時,飛天5k單點叢集的100tb排序能在30分鐘完成,兩倍于今年7月1日yahoo在sort benchmark排序測試daytona gray sort所創造的世界紀錄——100tb排序完成時間約71分鐘。</b>

odps作為離線資料處理平台,在整個5k的架構上起到了承上啟下的作用。 許多新的技術也是第一次應用到5k項目,并且經受了準生産環境的檢驗,同時也為未來資料業務長期發展打下了堅實的基礎。以<b>跨叢集資料複制為</b>例:

突破了單叢集的資料存儲上限。由于目前主流分布式系統master-slave的結構,單叢集受限于master的記憶體和處理能力上限。而現在資料可以存儲在多個叢集上,不再受單叢集的限制;

可以實作多機房資料容災。目前雲梯1上大量非再生資料正在備份到其他叢集上,将來可以動态的跨機房備份重要資料。

實作跨資料中心動态負載均衡,将熱點叢集上的資料和作業動态遷移到空閑叢集,緩解熱點叢集的壓力,提高空閑叢集的使用率;

對于響應速度要求比較高的請求,可以在多個叢集同時排程這個作業,将響應最快的請求傳回給使用者。

對于雲梯這樣的大規模分布式離線存儲和計算叢集來說,擴充性一直是其生命線,如果某一天雲梯叢集不能通過加機器來增加存儲空間和計算能力時,那麼雲梯将無法繼續支撐集團的離線計算業務。目前,阿裡集團基本所有的重量級應用都會用到阿裡雲,據唐洪估計阿裡内部采用雲平台的部門比例已超過一半以上。淘寶每天的日交易量、雙十一百萬億交易量的壓力,以及新增的餘額寶業務,都令雲梯遭遇了機房容量的限制。為了突破叢集存儲的瓶頸,阿裡雲飛天團隊、集團核心系統部、集團技術保障部、cdo資料平台等多個團隊緊密協作,成功實作單叢集超越5000台、多叢集跨機房計算,并完成叢集業務的大騰挪。

【阿裡飛天】飛天5K:開放比開源更有意義

阿裡雲資深總監飛天負責人 唐洪

飛天5k可以說是國内自主研發技術的一次飛躍,但是唐洪認為單單技術實作到一個東西是沒有影響力的,唐洪認為這件事最大的意義是“任何一個開發者,當他有一個需求,想要用 5000台機器,跑一個小時,做一些事情的時候。今天我們把這個計算能力提供出去,這件事情是亞馬遜、facebook、谷歌都沒有做的事情。在我們看來,我們希望的終極狀态大家不要買機器,不要布機器,你就把應用跑雲上來。這些工具對這些開發者來說是沒有意義的,這點意義上來說,我們覺得開放比開源對他們的幫助更大。”

據唐洪介紹,阿裡雲現在已經部署了三個5k叢集,某種意義上5k是個基礎,不是根本的目标。5k作為整個雲服務的基礎,一方面能提供大規模計算的能力;另外,5k可以幫助開發者做成本的節省、資源排程。5k最關鍵的是要做共享,比如有些應用是 cpu,有些應用是記憶體,有些應用是 io,隻有池子大了才能在幾個應用之間進行互補。

在計算能力的開放上,首先要考慮的是安全的問題。其次企業使用者和網際網路的量級是不一樣的,使用者管理上有不一樣的架構。很多美國的網際網路公司也基于hadoop做了很多的東西,為什麼從來沒有公司可以把hadoop這種能力作為功能服務弄出去,這個本身需要做很大的工作才有可能變成一個公共服務的。

唐洪說:“當你把一個服務從企業内部一個應用的人群變成了一個網際網路人群時,隻有逐一解決了各個問題,才可以給外面的人去用。這也是我們之前為什麼會走自主研發道路的原因。”

運維的任務是維護5k平台穩定,為開發提供平穩的開發測試環境,為5k驗收提供一個可靠的驗收環境,由于叢集版本的快速疊代給運維帶來很多額外的挑戰。而驗收測試标準同樣異常嚴格,阿裡巴巴進行了10倍資料極限壓力測試以及曆史上規模最大的機房斷電演習,一組數字或許可以更直覺的看到這些測試結果:

100t資料tearsort 30分鐘完成,比世界紀錄快了2倍;

odps作業10倍測試壓力連續7天無人工幹預跑過;

高并發12,000 job全部運作成功,單job并發100,000 worker成功運作,并發5,000 job時master在80秒完成故障恢複無作業失敗。

唐洪介紹說:“在阿裡巴巴,維護淘寶主站的團隊和維護阿裡雲是一個團隊,從硬體防斷電這個角度來說,我們有設幾級的保護措施,比如我們在每一個機房會有柴油機發電機,當市電斷電之後柴油發電機可以切換進來,確定它有足夠多的能量供給72小時的臨時供電。”

“從軟體方面說,我們的雲伺服器很多會提供異地架構的一些方案,但是需要客戶去做一些配合。比如說你可以在兩個不同的資料中心購買我們的雲伺服器,這樣發生故障的話你可以切換到另一個那邊去。”

去年的阿裡雲開發者大會上,唐洪曾說過阿裡雲就是google + amazon模式的內建。提到與這倆家網際網路巨頭的競争,唐洪表示:“其實,和亞馬遜和與谷歌的競争不完全在于技術,更在于産品與服務。建構雲服務,我們有阿裡巴巴集團多年的技術積累,我們有非常好的網絡資源,而亞馬遜在中國自己建骨幹網走起來會比較艱難。以谷歌為例,它也有雲服務,但或出于保持自己核心競争力的原因,在雲方面一直羞羞答答地沒有大踏步向前走。”

而談及對手亞馬遜,唐洪自信地表示可以比亞馬遜做的更好。“亞馬遜沒有類似飛天odps這樣的大規模計算服務,并且我們對中國的雲計算或者是移動網際網路市場,可以有第一手精确的了解,這樣有利于我們産品的本地化以及貼近使用者的使用習慣。”

關于國内的競争,唐洪認為阿裡雲作為一家提供通用服務的公司,最大的特點就是不挑客戶。”我自己覺得,我們在搞一個長跑,今天的狀态是領跑者,有兩個人在後面,在這種情況下,你跑步的過程當中,看的是終點在哪裡,這個市場還沒有完全成熟起來,我們占有的在未來市場可能1%都不到,我們要瞄準更大的市場,不是看現有我們占了多少,但是時不時的要往後看一下,其它的産品有什麼好的地方我們可以借鑒。我們部署瞄準市場去打的,而不是競争對手。前景很光明,道路還是很艱苦的,馬拉松才跑了5公裡。還有很長的路,還有很多人要跑。”

本文轉載自 csdn  作者 周小璐