在雲計算、大資料、人工智能、物聯網、區塊鍊技術的發展日新月異的今天,2018杭州·雲栖大會于9月19-22日在杭州雲栖小鎮舉辦,本屆雲栖大會的會議主題為“驅動數字中國”,在170多場的前沿峰會和分論壇中,9月19下午200人的“智能運維”專場各位引人注目,現場爆滿。

本次的“智能運維”專場中,來自清華大學、阿裡巴巴基礎設施、阿裡巴巴研發效能、阿裡巴巴計算平台事業部的小夥伴們,為全球開發者分析了及我們分享了,智能運維的學界、業界前沿以及阿裡巴巴全鍊路(供應鍊、資料中心、叢集運維、應用運維)的智能化運維探索之路。
《阿裡巴巴智能運維體系建設》
劉國華 阿裡巴巴集團研究員
阿裡巴巴集團研究員劉國華首先開場,分享了阿裡巴巴智能運維方面的探索和實踐。阿裡巴巴的運維系統随着基礎設施規模的發展,經曆了一個從人工到平台化和智能化的自然的演進過程。目前,阿裡基礎設施的高複雜、高安全、高可靠、高效率方面的要求完全超出了人所能處理的範圍,需要全面依賴機器智能才能面對快速發展的趨勢。
運維的場景中需要通過機器智能解決的問題是多種多樣的。這個需要我們把機器學習、優化算法和在各個專業領域方面的知識完美結合起來,針對具體的優化場景,産生令人滿意的解決方案。智能運維的實作是運維平台實作資訊化和數字化之後的自然發展。同時運維平台的寬度和厚度決定了上面智能實作的深度和厚度。如果把DC當做一台計算機,那麼運維平台就是這台超級計算機的作業系統。需要從全局的角度,統一整個資料中心的管控、排程體系,來提升整體的資料中心應用率,内容包含能耗、電力、使用率等,各個次元實作整體排程最優化。
劉國華把運維體系建設設計的思路總結為四個方面:系統思維、底線思維、安全思維、全局思維。智能化是整個自動化的終極狀态。目标就是要把複雜留給自己,把簡單留給使用者。阿裡在供應鍊、伺服器運維、叢集和應用運維等職能運維方面都已經做出了有益的嘗試并取得了不錯的效果。後面還會有更大的投入,建立一個完善的智能維護體系,成為阿裡巴巴業務的核心支撐。
《Robust design of a reverse supply chain network planning 》
張智海 清華大學工業工程系副教授
張智海教授本次分享結合一個光伏電池回收網絡的規劃與營運問題,探讨了如何利用魯棒優化方法對不确定系統進行模組化,并開發了一個高效的優化算法對建立的模型進行優化求解,進而分析了系統營運規律和特點。
各種不确定因素(例如價格、需求)給供應鍊網絡營運帶來極大挑戰,“我們為什麼要做這個東西?”張智海教授說到,這是實際應用的案例,當我們設計一個系統或者設計一個方案的時候,設計的過程往往是對未來參數的值的期望,基于期望值做的設計和規劃,在實際的營運過程中,當期望值發生變動的時候,如果系統設計足夠強壯的話,設計可能就失效了。一方面,我們設計的系統要有最優的成本表現,但是如果值發生變動以後,成本可能變得非常惡劣,當然這樣的情況是極端的情況,設計就完全失效了。即使參數和當時設計的參數有一定的偏差,設計的方案依然可以有效的運作,為了實作這樣是以我們用了分步優化方法。
《智能化應用運維》
黃心懿 阿裡巴巴進階技術專家
本次分享将向大家介紹了阿裡最大的運維平台是如何轉型的,如何以智能化方式實作監管控一體的自動化體系建設,如何穩定,高效,低成本的完成百萬級伺服器的運維。
他介紹了阿裡的運維平台的演進曆史,以及DevOps的最佳實踐。并通過一次釋出過程,介紹了“無人值守釋出”實作關鍵的技術方案,無人值守釋出做為阿裡在智能化運維領域的全新探索,探索出一套适應于阿裡的應用智能化釋出部署體系并實作系統化。通過這套系統,首次描繪出了一個應用在變更部署過程中的資料畫像,通過機器學習以及優化算法能及時有效地發現并攔截異常的變更,把變更類故障剿滅在萌芽狀态。
《MSP引領運維的智能化變革》
李雲(Brad Lee) 北京貝斯平雲科技有限公司 總裁
本次分享從第三方獨立MSP營運商的角度,分析解釋在新的網際網路運維時代,運維管理的變革推動了MSP成為行業新趨勢,并探讨如何建設MSP的高效運作模式,助力行業,為客戶提供穩定、高效、一站式的智能化業務運維服務。
他說到,“在AI-Ops時代,MSP企業在積累經驗,經驗是來自于逐漸性的動作,AI是有場景的,AI是有資料的,AI是有算法的,我們作為MSP,有些東西是海量資料,包括海量經驗,資料是我們自己提供運維的時候,我們平台的資料,經驗是最寶貴的部分,從标記、特征、決策樹等,采集之後成為AI-Ops的方向。”
《資料化運維構築智能運維能力》
孫永華 阿裡巴巴運維專家
本次分享将向大家介紹阿裡巴巴大資料SRE在資料化運維的體系化建設曆程,為企業客戶建構資料化運維體系帶來可落地的思路和幫助。在AIOps的實踐過程中,發展資料化是一個必經之路。正如坊間的一句話,要做AI先做BI。
是以他提出了DataOps的概念,在DataOps之上建構相應的資料應用場景,解決業務的各類問題。在運維資料倉庫之上,提到了3個重要的運維應用場景,知識圖譜(搜尋和Chatops)、智能監控、運籌優化。
在建構DataOps的過程中,需要先建構運維資料倉庫,通過阿裡雲的大資料技術棧以及資料倉庫的次元模型可以很友善地構築出運維資料倉庫;通過基于資料倉庫的應用,通過對機器打标簽建立畫像,進行伺服器的治理;以及另外一個資料應用領域是智能監控,講到了名額監控的2種方法以及日志異常檢測的方法。
《智能化大規模叢集運維》
菅骁翔 阿裡巴巴資深技術專家
本次分享為大家介紹阿裡巴巴在雲戰略中的智能化實踐。如何通過自動化和智能化手段營運大規模叢集,如何在計劃内變更穩定性及異常處理方面應用智能算法輔助決策,提高大規模叢集穩定性并降低營運成本。
從單機到多機,單資料中心到多資料中心,IT基礎設施規模化管理成為降低日常營運成本的重要手段,整個的自主優化,我們把資料化結合自動化、智能化的方法,最後達到持續學習優化的過程。
他舉例說到“我們的叢集變更模式,分為兩類:一種是計劃内,主要關鍵點是灰階模型,具體的服務實作自己所需要的政策,我們把所有的服務作為服務鞏固把模型實作出來,把整個計劃内的風險控制得非常低。另外一種異常處理,在大部分環境下可以積累資料進行更優化的判斷,保障變更的穩定性。”
《智能化資料中心營運》
焦靖 阿裡巴巴進階技術專家
本次分享向大家介紹了阿裡巴巴智能化資料中心營運的體系化建設曆程。随着電商,阿裡雲等業務的快速發展,給IDC建設,伺服器傳遞,運維等帶來了越來越多的挑戰。整個DC營運體系,經過了資料化,自動化二個階段的演進與發展,正在往着智能化方向邁進。通過全方位的資料監控和采集,提供統一視角的IDC監控中心,對核心名額進行監控告警。基于大資料的積累,和自動化的産品流程,在關鍵節點使用AI技術進行針對性的優化提升,推動運維模式的變革,從被動響應到主動,預防性維護演進。
《智能化資料中心供應大腦》
朱婉怡 阿裡巴巴進階技術專家
本次分享向大家介紹了阿裡巴巴資料中心供應鍊大腦的主要發力點:如何對資料中心端到端的供應鍊進行精準預測連結和對資源配置設定做主動預先式優化管理,如何結合運籌優化和長期預測智能化系統化制定DC建設長遠戰略,以最佳的成本和最小的供應風險保障資源的傳遞和使用。
她講到通過預測技術演進,從完全被動到粗略估計到單線資料進行統計預測,開始嘗試結合多元因子進行需求預測,有了大資料和人工智能幫助我們建造持續演進的需求預測的系統,随着資料層的豐富,預測技術的豐富,預測技術是不斷演進,進而精确抓住産品的采購,幫助供應鍊的管理由被動變主動,降低成本,控制風險。
《智能化故障管理》
王肇剛 阿裡巴巴進階技術專家
分享了阿裡巴巴在故障處理領域進行智能運維實踐的成功案例,助力企業客戶在實際的業務和技術環境中推進智能運維的實踐程序,提升運維工作的品質和效率。
介紹“智能基線”的架構,解決的是精準監控的問題,通過算法架構,在時間序列分解預測加上機器學習的方式解決業務精準監控的問題,并通過一些方案把異常名額關聯應用,資料及基礎設施,最後基于線上的運維資料倉庫,查詢到在這個瞬間哪些應用上有問題,最後得到可疑事件。并通過一些政策,把可能是一類原因的業務聚合起來,然後會把跟下跌相關的業務名額推薦出來,通過這種方式讓我們出現應急事件的時候,協作效率提高。
《智能化應急協同》
郭銳 阿裡巴巴技術專家
分享了阿裡巴巴在應急處理領域,基于IM的機器人,通過大資料分析,意圖訓練等進行應急協同作戰的最佳實踐。
基于複雜的生态體系,一旦出現應急的時候,如果不及時處理,可能會帶來更不好的結果,阿裡巴巴在應急這塊的處理流程,還是比較規範,從故障發現到資訊情報,中間有應急排程、故障定位、故障恢複,通過一系列的手段進行應急統一搜尋,統一排程到把事情處理掉,最後把互相之間協同起來,最後收集到統一的協同中心。
對于未來的暢想,他說到“我們今天的主題是智能運維,那是我們理想的彼岸,其實我們一起在前進的道路上,在前進的道路上,我們的人參與定規則、定算法,很多離不開自己的參與,我們有很多的成長空間,但是未來的方向和機制是不變的。”
通過本次雲栖大會 “智能運維專場”的分享,我們針對運維的智能領域分享智能運維的成功案例以及阿裡全局性應急決策與指揮經驗,為企業客戶建構智能化運維體系帶來可落地的思路和幫助。
我們正在建設的DC Brain結合了AI和對應的專業領域去建設自動傳遞,主動優化和自主演進的智慧化運維體系,打造“Towards a Self-driving Data Center”!
更多
精彩瞬間
200人的場地座無虛席
現場異常火爆
We Make AI-Ops Happen!