天天看點

驚!阿裡雙11資料中心來了一位頂級“刺客”?

早上好!阿裡妹來考大家一道數學題:有10萬件大小不同的商品,要平均放到1萬個箱子裡,應該如何配置設定?

對于聰明的你來說,這還是一個可解的問題。但是!如果問題更難一點:這10萬件商品會随時變大變小,而且還有“礦泉水不能壓在薯片上”等一大堆限制條件,如何在幾秒鐘内給出最均衡的裝箱方案?

驚!阿裡雙11資料中心來了一位頂級“刺客”?

阿裡巴巴的工程師每天都會面對這類問題。無數個應用對伺服器的需求每時每刻都在變化,還有新的應用不斷加入,如何才能把這些應用均衡的配置設定到數萬台不同規格的機器上。

為了解放人類工程師并能夠更好的配置設定計算資源,11月6日,阿裡巴巴計算資源AI配置設定官“達靈”正式上任,準備迎接天貓雙11的挑戰。

驚!阿裡雙11資料中心來了一位頂級“刺客”?

實習期間,達靈将資料中心資源配置設定率拉升到了90%以上,在部分業務中節省了一半伺服器,并且可以2秒鐘鎖定異常機器,命中率94%。

驚!阿裡雙11資料中心來了一位頂級“刺客”?

減少機械重複工作 為阿裡節省一半機器

打開手機淘寶,首頁可以看到“有好貨”、“猜你喜歡”等這樣的常用功能子產品。以前,要人工為每一個子產品配置設定伺服器數量以及監督運作情況。對于工程師來說,挑戰巨大。

“伴随雙11規模的逐年暴漲,這樣的工作已經不适合人來做了。” 阿裡巴巴資深搜尋研發專家鄭南說。為此,阿裡巴巴搜尋團隊對“達靈”進行了大量訓練和工程化,在實習期“達靈”就完全替代了人工,在推薦平台智能排程方面将資源配置設定率提高了一倍,這相當于節省了一半的機器。

驚!阿裡雙11資料中心來了一位頂級“刺客”?

 “這套算法能夠快速給出最優的部署方案,并且根據通路量不斷搬運應用和資料,確定沒有一台機器偷懶”。鄭南說,我們要做的就是不斷用資料喂養她,提供表格資料大小、通路量以及目前的部署方案等資訊,省下的就是喝着茶看她的表演。“她甚至可以線上上克隆一個真實的服務,自己進行壓力測試,以判斷方案是否最優。”

隻需2秒鐘,隔離異常機器準确率94%

阿裡巴巴遍布全球的資料中心如果有一台機器發生異常,未被及時處理,會帶來什麼損失?天貓雙11期間,可能會是近百萬使用者下單失敗。

為了避免這種情況,每年雙11都會有大量的工程師緊盯着叢集的健康情況。如果發現有不正常的機器,馬上進行手工隔離,甚至直接下線,業内俗稱“殺機器”。

驚!阿裡雙11資料中心來了一位頂級“刺客”?

但從出現異常、被發現到處理完成,整個過程有時會長達數分鐘。阿裡巴巴排程系統資深專家丁宇說,“之前我們已經做到了人能夠做的極限。去年,我們開始探索用人工智能技術尋求突破,把時間、負載、服務狀态等不确定因素通過資料算法關聯,最終找到了問題的解法”。

今年丁宇團隊和“達靈”合作,對“達靈”進行深度改裝,實作了對異常機器更精準、快速的探測。算法每天會采集29億條機器營運狀态,在之前的測試中,日均處理異常機器1000次左右,在大促期間排程準确率達到94%,時間隻需要2秒鐘。一發現異常機器,立刻精準出手,絕不含糊,可謂頂級“刺客”。

從倉庫到資料中心  天貓雙11 AI滿地跑  

 “其實達靈的前身真的是倉庫管理者,就是為了解決包裹裝箱的難題”,阿裡巴巴iDST機器學習算法負責人朱勝火博士透露。

一年前,iDST和菜鳥網絡的算法工程師共同研發了一套算法,能夠在顧客下單的瞬間,對商品的屬性、數量、重量、體積,甚至擺放的位置都綜合進行計算,可迅速地與箱子的長寬高和承重量進行比對,并且計算出需要的幾個箱子,商品在箱子裡面如何擺放最節省包裝。整個計算過程,不足1秒。

朱勝火介紹,基于同樣的理念,我們将這套算法帶到了資料中心,研發出了達靈。達靈的工作首先是在叢集監控資料之上,建立起很多個深度學習、線上學習的模型,由此對叢集内每一台機器、每一個應用,目前和未來的狀态都了然于胸。在此基礎上,達靈通過應用強化學習、組合優化等技術,可以在複雜環境中自行學習判斷,作出一系列比如錯峰排布、碎片規整等聰明的決策,進而全局最優化叢集的資源配置設定率以及穩定性。

原文釋出時間為:2017-11-7

繼續閱讀