天天看點

80%時間在滅火,普通工程師如何擺脫重複勞動?

80%時間在滅火,普通工程師如何擺脫重複勞動?

從傳統運維OD分離轉型到新型運維DevOps,不是簡單把運維丢給開發就可以了,需要先把運維的工作工具化,實作開發可以利用工具自助完成,DevOps強依賴運維工具的支援。工具的落地也不是一蹴而就的,需要結合企業實際情況逐漸建設,第一步先完成标準化,如Java類應用一套标準、PHP類應用一套标準,标準化之後才能使用工具自動化,智能化的核心是資料,自動化沉澱了資料才能做智能化,三步需要逐一實作。

StarOps

雲效2.0涵蓋項目協作域、研發域、測試域、運維域,為企業提供一站式研發協同服務。其中運維域由StarOps負責。StarOps定位一站式運維平台,資源、配置、部署、監控、運作,覆寫應用運維完整生命周期,具備基于混合雲的應用運維無人值守解決方案以及自動化、資料化、智能化應用運維解決方案。阿裡在運維領域沉澱多年的專家經驗和能力全部內建于此,目标是通過平台使使用者直接擁有運維專家的能力。

産品體系由八部分構成:CMDB、釋出、監控、堡壘機、主機運維、故障管理、運維大屏、運維通道。不管公有雲、專有雲還是兩者的混合雲,通過運維通道屏蔽底層環境差異,實作上層應用運維統一管控。

80%時間在滅火,普通工程師如何擺脫重複勞動?

運維通道

運維管控通道是伺服器自動化運維的基礎,所有操作最終都需要落地到伺服器上執行,可以細分為三塊:

指令通道:向伺服器下發指令并執行,如ssh $ip $cmd

檔案通道:把檔案分發到伺服器上,如scp/rsync/wget

資料通道:解決資料上行問題,如在腳本或指令執行完成後回調一個位址上報結果。

在伺服器規模較小時,用上面提到的方法一般可以滿足需求,不過随着規模的增漲,對安全、效率、穩定都會提出更嚴格的要求。用SSH通道時需要打通一台機器到所有伺服器的認證,如果這台機器被黑客拿下向所有機器下發rm -rf,後果可想而知。

阿裡自研的運維通道支援百萬級規模伺服器管控,支援二層/三層架構與容災部署,1分鐘可以操作50萬台伺服器,在内部每天有上億次的調用,安全方面全鍊路加密簽名、支援賬号級别的指令映射,Agent經過淘寶、天貓、支付寶、阿裡雲等阿裡生産環境業務真實驗證,穩定性、安全性可以得到有效保證。運維通道與CMDB可以形成關聯,實作資料的自動采集,保證CMDB資料的準确性與一緻性。

CMDB是運維的中繼資料中心,擁有絕對權威性,一個公司隻能有一份。儲存的資料有兩個特點:被大部分運維場景依賴、相對靜态一次維護多次消費,在阿裡内部實踐中資料歸為兩大類:

CMDB

第一類:資源資訊

傳統資源有伺服器、網絡裝置、IP段等,每種資源又有很多屬性,如伺服器的屬性:SN、IP、主機名、OS、機房、機架、CPU、記憶體等,對于一台實體機而言SN、CPU、記憶體基本是永遠不變的,OS可以随時重裝,搬遷後機房資訊也會變掉。使用雲後資源類型又有OSS、RDS、SLB等,雲資源的生産、銷毀等管理操作也會內建進來。屬性的變更應當通過外部系統或流程自動化觸發,如OS資訊應由裝機系統維護更新、機房資訊隻能通過搬遷流程修改。

第二類:業務拓撲

也叫産品線,展現的是業務組織方式,例:BU/事業部->業務架構域->産品->應用,可以一級也可以多級,根據業務規模靈活調整。應用也有非常多的屬性,像狀态、等級、owner、開發負責人、運維負責人、代碼庫、開發語言等。多級時最上級一般與組織架構對應,增加子節點需要上一級審批。

CMDB儲存着完整的資源與業務拓撲資訊,通過資源與業務的關系,可以清晰了解各個業務使用的資源資訊,資源屬性資訊再開放到其它系統消費,當擁有完善的基礎資訊後,基于場景的運維将會非常友善,例:

把伺服器監控項配置在産品或應用上,新增伺服器将預設擁有監控。

通過業務拓撲中的應用開發負責人判斷誰有權限進行釋出。

伺服器預設為運維負責人授權,其它人登入需要運維審批。

80%時間在滅火,普通工程師如何擺脫重複勞動?

釋出

網際網路時代産品疊代速度直接決定産品競争力,最近有機會接觸一些傳統企業,運維幾乎都是貼身為開發服務,釋出按開發寫好的文檔一步一步操作,隻是作為操作工毫無價值與成就感可言。

幾年前在支付寶的時候釋出也很痛苦,釋出視窗提前幾個月規劃好,基本一個月一次,釋出日當天一大早到公司,确認系統owner到位後開始釋出,每個應用做完beta釋出都要群裡吼聲,由owner确認後才能繼續發,最怕發到一半出意外復原,因為應用之間有先後依賴復原就是整個鍊路,從早發到晚是常态,真心體力活。

從一月一次到一周一次,再到現在幾乎開發随時想發就發(核心系統還是要控制釋出節奏),釋出系統與業務系統一起持續完善優化才有的今天,随時可以發使得業務需求可以快速上線,線上缺陷能夠得到及時修複,有效提升傳遞效率。

釋出模式有很多,如藍綠釋出、滾動釋出、灰階釋出等,這裡不再對名詞做解釋,采用哪種模式與公司實際情況有直接關系,但不管哪種模式背後解決的問題都是不要出故障,即使有也要将影響控制在最小。

目前大部分釋出工具解決的是把應用包發到線上的問題,不要出故障基本靠人為登機器查日志或者看監控。不過人工檢查難免會遺漏,或者有時候過于自信覺得改動小肯定不會有問題,最終可能還是産生了故障。是以我們目前正在做無人值守釋出。當一台機器釋出完成後自動關聯分析監控資料,包括基礎監控(cpu/mem/load)、應用監控(jvm)、中間件監控、業務監控,如果檢測到明顯異常則直接攔截停止釋出,在監控項足夠完善、資料足夠準确情況下無人值守釋出完全可以做到人工零介入,送出代碼自動測試、自動釋出,相信這一天很快就會到來。

阿裡的釋出系統在内部能夠支撐日均10萬釋出量,可靈活定義釋出流程滿足個性化部署需求, java、nodejs、python、php等多種技術棧的自動化釋出我們都能夠支援,通過無人值守、釋出自愈等智能化釋出部署能力保證代碼變更安全,有效降低線上故障。

80%時間在滅火,普通工程師如何擺脫重複勞動?

監控

監控作為線上運作的“眼睛”,能幫助業務快速發現問題、定位問題、分析問題、解決問題,為線上系統可用率提供有力保障,通過使用率資料的分析,幫助業務精準控制運維成本。

支付寶在2010年監控采用的開源軟體nagios+cacti,随着業務的不斷擴張伺服器越來越多,監控項排程延遲越來越嚴重,調高檢測頻率、換最高配實體機、把多台nagios組成叢集、對nagios深度調優等還是無法支撐業務的發展,加上開源軟體對應用以及業務監控的缺失,是以最後不得不走上自研的道路。

阿裡的監控規模早已達到千萬量級的監控項,PB級的監控資料,億級的報警通知,基于資料挖掘、機器學習等技術的智能化監控将會越來越重要。監控系統是一整套海量日志實時分析解決方案,以日志、REST 接口、Shell 腳本等作為資料采集來源,提供裝置、應用、業務等各種視角的監控能力,利用檔案傳輸、流式計算、分布式檔案存儲、資料可視化、資料模組化等技術,提供實時、智能、可定制、多視角、全方位的監控體系。主要優勢:

全方位實時監控:提供裝置、應用、業務等各種視角的監控能力,關鍵名額秒級、普通名額分鐘級,高可靠、高時效、低延遲。

靈活的報警規則:可根據業務特征、時間段、重要程度等次元設定報警規則,實作不誤報、不漏報。

管理簡單:分鐘級萬台裝置的監控部署能力,故障自動恢複,叢集可伸縮。

 自定義便捷配置:豐富的自定義産品配置功能,便捷、高效的完成産品配置、報警配置。

可視化:豐富的可視化 Dashboard,幫助您定制個性化的監控大盤。

低資源占用:在完成大量監控資料可靠傳輸的同時,保證對主控端的CPU、記憶體等資源極低占用率。

80%時間在滅火,普通工程師如何擺脫重複勞動?

主機運維

伺服器單機操作、批量操作、系統配置的管理,我們把伺服器日常運維操作全部集中在此,功能包括:

WEB終端:獨創WEB終端可嵌入任何Portal,多種安全加密機制實作免SSH一鍵登入伺服器,提升日常運維效率。

檔案分發:月均10億次分發量,服務穩定性99.9999%;具備斷點續傳、動态壓縮、智能IO流控等超強能力;同時在容器鏡像層級預熱,超大檔案分發,窄帶、跨洋、遠距離傳輸方面具備世界級競争力。

定時任務:最小粒度支援秒級且支援随機,避免同一時間集中執行影響業務。支援按叢集配置定時任務,新擴容伺服器預設自動添加。

插件平台:統一管控伺服器的通用運維腳本及Agent,支援自動安裝、自動更新、程序守護。

80%時間在滅火,普通工程師如何擺脫重複勞動?

堡壘機

堡壘機是進入生産環境的第一道屏障,阿裡自主研發的專業級堡壘機系統,實作了集中通路控制、多因子驗證、邊界管控、操作實時記錄、過程錄屏、容災容錯、高危審計、指令阻斷等功能,實作對人員操作過程的全面跟蹤、控制、記錄、回放;符合安全審計,合規,政審,認證等要求,廣泛應用于阿裡集團各業務生産管理(含阿裡雲、螞蟻金服)。産品特點:

1. 專業級堡壘機,滿足通路集中管控,運維操作指令記錄、過程錄屏,高危指令識别與攔截阻斷等,滿足對于生産網使用者操作行為監測與審計需求。

2. 軟體部署簡單靈活,無硬體依賴,達5000人同時線上高承載,超強合規保障,符合美國上市企業SOX404審計要求和ISO27001資訊安全認證要求。

故障管理

IT變更與事件管理,與運維平台天然打通,監控異常事件可一鍵轉工單跟進,主要功能:

事件:支撐客戶、内部回報線上業務異常,技術支援跟蹤、處理、解決的流程支援和管理。

故障:線上故障進行記錄、通報,并記錄review内容及改進措施。

問題:故障Action或需要長期解決的問題跟蹤,可以與評審流程關聯。

運維大屏

綜合CMDB、監控等資料,為企業提供定制可視化大屏服務,以大屏的方式在指揮中心展示業務運作狀态,輔助指揮決策,大屏也是運維自動化效果展示的最佳視窗。

80%時間在滅火,普通工程師如何擺脫重複勞動?

點選文末“閱讀原文”,可了解更多“雲效”資訊。在日常工作中,你有哪些工具或方法,可減少重複勞動、提升效率?歡迎在留言區一起交流~

原文釋出時間為:2017-12-13

本文作者:宋意