天天看點

從人肉到智能,阿裡運維體系經曆了哪些變遷?

機器智能的前提是需要有資料,AIOps的資料從哪裡來?如何利用資料代替機器決策、分析?如何利用機器學習算法與基于大資料的業務運維管理平台整合,在告警過濾、異常監測、自動修複等環節發揮效用,真正能把運維同學解放出來提高整體運維效率,降低運維成本。我們認為AIOps是一個長期演進的過程,這也是我們差別于業界,在通往AIOps征途上增加DataOps階段建設及沉澱的重要原因,而我們接下來聊一聊DataOps時代——運維人才的能力要求。

從人肉到智能,阿裡運維體系經曆了哪些變遷?

人肉/腳本運維時代(Human/Scripts Ops)

運維工作本身其實是一個需要具備高度綜合技能掌握的工種,需要涉及的廣度相對别職業屬性的要求會更高,以前很多時候大家對運維的認識都停留在釋出、變更、接報警、搬機器……其實這個很好了解,所有的網際網路大公司都是從小公司成長起來的,在還是小公司的時候,你需要面對的是不停地解決各種奇怪的問題,而由于有公司生存的壓力,追求短平快的結果使得大家會淪為一個搬來主義者,從各類技術論壇,甚至是個人blog上去搜尋各種各樣的解決方案,以求快速workrun解決問題,但對于原理、系統全局上的東西,可能完全不會去深究。

工具化運維時代(Tools Ops)

做過運維的人都知道,運維同學比較喜歡編寫各種各樣的腳本,比如一鍵批量釋出軟體,一鍵清理、互動式向導執行等等,他們很喜歡通過黑屏上操作刷屏帶來成就感。每當我們的運維同學交接工作的時候,新來的運維同學基本上會照着自己的了解重新實作一套。人肉/腳本時代的運維存在大量的效率低下,以及各種各樣重複的腳本工具,同時也會帶來很多安全風險,回顧網際網路的發展史,幾乎每隔一段時間就有一些嚴重事故發生,而每次事故的背後卻是一些低級錯誤,甚至是手誤敲錯字元帶來的巨大代價。這時候大家都意識到,不能再任由運維同學随意發揮了,需要将各式各樣的功能腳本收斂到工具裡來,通過內建的運維工具疊代來實作複用和能力交接,這展現在DevOps的初級階段,此時還沒有延伸到Dev階段。

平台型運維時代(DevOps)

随着公司商業上的成功,随之帶來的規模的發展,這個時候量變引起質變,今天對大廠的運維來說已經遠遠不僅僅是上述這些工作,同時這些工作也不僅僅是靠加人手能解決得了的,例如說應用從原來的一個應用變成了幾千個、上萬個、幾十萬個,平台規模從原來的幾百台擴充到上萬&幾十萬台,硬體由簡單的CPU,mem,機械硬碟增加到Gpu,Fpga,Asic,Optan等各類異構硬體平台,軟體架構變化,大資料分布式等等,當面對海量的各類彙總資料,需要快速判斷業務止損,全局資源優化營運等工作時,人工将會面臨非常大的挑戰,甚至是不可能完成的任務。這個時期運維的工作職能更多轉變為:

● 全局架構規劃

● 資源營運與成本優化

● 自動化平台開發

● 穩定性保障

● 海量資料分析

● …….

資料化運維時代(DataOps):

對我們來說由于業務的需求對目前運維能力的要求越來越高,技能的要求上來說不光除了面上的廣度還需要一定方向的精度,甚至某些點的深度要非常專深。同時需要通過軟體工程化,資料化的運維的思路,圍繞資料鍊建設起整體運維智能化工具鍊,來解決超大規模分布式叢集運維管理問題,提升整體産品的穩定性,效率,成本。這樣對現在整個運維人員的綜合技能要求會有很大的挑戰。

業内随着運維的發展逐漸從Ops發展到今天大家業内都比較火熱的AIOps,現在運維界現放眼望去大家都太大談特談AIOps,認為隻要有強大的算法,就能夠輕松實作不需要人為幹預的智能化,當然這是個理想化,終局化的情況,最終的目标是要做到完全智能化,但這個難度不低于完全自動無人駕駛。在我們看來如果算法是kernel,那麼工程化的程度就決定了能否把kernel發揮到極緻,能否做到易用和高可靠是我們要着力解決的問題,我們内部我們認為目前還處于DataOps階段,資料化一切運維對象,以資料驅動運維,工程化落地。與自動化駕駛分級類比:

從人肉到智能,阿裡運維體系經曆了哪些變遷?

随着大資料時代的逐漸發展促進運維人員的技能轉型需要具備更為複合性能力:

● 架構能力

● 研發能力

● 運維知識&業務了解

● 基本工程算法

● TPM(技術項目管理能力)

AIOps發展最終本質上還是要落地在公司的各類運維平台&運維産品上,在完成初步建構後仍然需要持續的人力投入以及參與,而在目前的探索發展的投入階段,有大量的工需要去做,仍然需要專家或者分析師,從不同的次元,從不同的業務口徑,組合合适的可視化技術,機器學習技術,大資料分析技術,制定分析場景,平台落地才能夠為運維産生持續的洞察,提供最終的業務價值。

從人肉到智能,阿裡運維體系經曆了哪些變遷?

在不同階段對于運維團隊的技術能力要求及轉型是必須曆經的過程,同時也是一個痛苦的過程,能力要求的變化自然會帶來組織變革,對原有人員的沖擊也會比較大,整個部門從維護性部門轉變為研發創新型部門,最先帶來的沖擊是思想上的,在研發思維先有原理,然後逐漸工程實作落地,而傳統運維是反過來很多東西都是已經存在去維護它的穩定。

這種陣痛也是團隊轉變需要去面對的,從被動救火式運維向主動精細化轉型,從問題驅動向價值驅動轉型,從操作運維向運維開發轉型,從依靠經驗向智能化驅動運維轉型,這不僅是技術能力的轉型而且是運維系統化思路的轉型。時代在變化,唯一不變的隻有擁抱變化!

原文釋出時間為:2018-09-11

本文作者:大舞

本文來自雲栖社群合作夥伴“

阿裡技術

”,了解相關資訊可以關注“

”。