天天看點

7×24小時支援聯想6萬餘名員工辦公的運維,究竟有多絕?

作者:聯想中國

Jeffrey是一名“攻城獅”,他2016年應屆畢業後加入聯想全球IT的運維部門 - Command Center,主要工作是負責集團大小資訊系統的運維,7*24小時支援聯想全球6萬餘名員工的工作,保障業務系統的正常運作。

在集團數字化轉型2.0的過程中,Jeffrey和Command Center團隊向着智能化運維(AIOps)的道路前進,他逐漸由一名傳統的運維工程師轉型成了智能運維工程師。下面我們一起跟随他的自述,回溯他是如何一步步學習、探索、總結、落地,逐漸把技術産品和方案應用到各個業務方向裡的。

7×24小時支援聯想6萬餘名員工辦公的運維,究竟有多絕?

燃燒吧,小火苗

大家好,我是Jeffrey。入職以來的前三年,我是做資料倉庫和報表系統運維的。報表種類各式各樣,資料鍊路也是綿長複雜,一頭紮進代碼裡複現、debug,不知不覺幾個小時就過去了,有時還要半夜跟歐洲和美洲的同僚開會确認業務邏輯。

幾年下來,各種程式設計語言和人類語言水準都長進了不少。不過也看到了傳統運維模式下存在的一些問題,這些問題在心中逐漸生了根,成為了激發我想要做點什麼的小小火苗。

2019年中,部門想把各個團隊的轉型力量集中起來,新成立了團隊,專門做運維智能化的探索,并開始做一些将AI技術賦能于運維領域的嘗試。新團隊新氣象,擁有不同知識背景的夥伴們提了很多不同的點子和見解。

其中,我從自己資料運維的角度出發,提出了資料流檢測和糾錯、運維單據問題分析這些入手點,後來合并其它同僚的想法,形成了幾個智能運維探索的着力點:資料流監控、服務台工作流程自動化和智能化、IT運維使用者畫像和推薦系統。這幾個方向後來都形成了一定的突破。

2020年,正逢集團IT啟動了一個大項目,其中涉及混合雲環境、資料中台、微服務等複雜的方案和環境,而在這個複雜的環境中,資料一緻性,及時性及準确性等問題就越發凸顯。我和小組的夥伴們敏銳地捕捉到了這個問題,剛好可以做一些AI新技術的應用,能夠改變傳統的資料鍊路監控模式,提升監控的效率。

7×24小時支援聯想6萬餘名員工辦公的運維,究竟有多絕?

于是,我們與系統負責人、開發團隊、系統內建團隊、監控團隊合作,從項目初期就開始介入,了解系統設計邏輯、開發進度、資料流、內建方式、監控點等,再由此設計我們的監控告警方案。方案中很多環節對于我來說都是新的領域,這可以說是一個運維人的“創新第一步”。與此同時智能資料鍊路監控解決方案也逐漸誕生。

同一時間段,新成立的團隊也向部門的其他團隊征集工作中的痛點、難點問題。其中最痛的要數一線服務台的同僚們了。一線服務台的同僚們業務量大、線路多,很多問題重複性高而且單據量巨大。

是以服務台的同僚們迫切需要更自動、更智能的方法,改變傳統的“人拉肩扛”方式,提升工作的效率。在切身體驗過一線的工作後,我們不禁思考,什麼樣的技術能夠減輕他們的壓力,什麼樣的服務能夠提升他們的效率?

去年,随着我們這個算法小組逐漸在部門做出一些成果,開始有一些兄弟團隊主動找到我們做一些智能化服務賦能的嘗試,比如内部即時聊天應用團隊和IT内部社群團隊,希望我們做一些内容推薦的服務幫助他們産品營運,提升一些使用者名額。

這又是一個未曾做過的人工智能領域,但我也認識到,我們團隊做推薦系統是有巨大優勢的,我們本身已經有成熟的、基于IT運維的使用者畫像資料了,再加上對端産品的資料,做内部營運的内容推薦功能,也成為了我們的另一朵小小火苗。

從火光中走來

我從運維中來,運維的經曆點燃了心中創新的小小火苗,但在火勢漸旺的過程中自己的内心也經受着煎熬,因為創新也不是一蹴而就的,太過樂觀那有可能就“too young, too simple”,這是要吃虧的。光想出來不夠厲害,能落地使用才是真的厲害。那麼如何才能落地呢,以我看來分三步走:

1. 學習、調研已有的方案。2. 結合自身和業務的經驗融合、調整,隻會照貓畫虎是不行的。3. 自己改進調整之後要根據業務方的回報持續研發和優化。

比如,在做上文提到的服務台郵件自動分派服務的時候,由于一開始做AI模型需要标注訓練資料,而服務台并沒有空餘人手做标注,是以我采用了IT運維報單資料的問題表述和單據問題分組作為訓練資料,先做出一個初始模型後續進行疊代的形式。利用這個初版模型先上線,節省服務台的人工分派壓力。

之後分派到手了如果發現分派錯了,再處理時順便進行人工标注,這樣就在日常工作中完成了資料标注,為之後疊代模型提供了資料基礎。後續根據标注資料,再結合一線同僚的回報,又将模型細化為區分語種的多模型,在模型後加入特定邏輯重新分派等調整方案。這樣持續地收集意見,優化方案,最終這個郵件自動分派服務得以落地。

此服務在樣本資料驗證時分類準确率為90.5%,經一線服務台實際使用,分派的準确率達到90.4%,基本替代了服務台每日值班分單的工作,使得資深同僚可以解放出來做更有意義的工作。

輕舟已過萬重山

踏上這條智能化轉型之路已經三年了。這三年裡,我的心态可謂經曆了“一波三折”的路程,從一開始智能轉型的激動興奮,到很多效果不好的實驗、龐雜淩亂的業務和資料帶給我的否定和迷茫,再到和不同團隊同僚的交流讓我又開闊了視野,逐漸恢複了信心。

任何技術都沒有那麼好,也沒有那麼壞,它不是山珍海味也不是殘羹冷炙。拿來主義不可取,全盤否定行不通。我們應該做的還是實事求是,具體問題具體分析。

過去一年多,我們針對這些技術服務成果,從自然語言文本分類,資料流性能評估,文本主題提取等幾個次元分别總結提煉專利點,最終有兩篇申請通過了公司内部的評審并送出到國家專利局。回過頭看,一步一個腳印,踏踏實實去做,不僅産出了一些穩定、可用的産品服務,還能把創新點理論化,釋出幾篇專利。

輕舟已過萬重山。當這些豐碩的果實捧在手裡的時候,回頭看确實是痛并快樂着的。以後再翻越重重山巒的時候,曾經在火中淬出的寶劍就是我最好的武器。

作為聯想運維人,智能化轉型的道路上不斷創新,超越自我才是最好的答卷。

7×24小時支援聯想6萬餘名員工辦公的運維,究竟有多絕?