天天看點

運維那點事

前言

上一篇潛伏在辦公室在釋出之前先給朋友們看了一下,大多數都覺得很真實,尤其是齊小胖童鞋更是告訴我他就喜歡這種講故事的文章,但是感覺熊熊那篇文章講的點太多了,沒有具體找一個職業好好的說一下,就感覺吃了一頓自助大餐,雖然很飽很過瘾,但是自助餐就是沒有主菜,人家說的一定要虛心接受,畢竟熊熊隻是在行裡稍微折騰了兩年而已,還沒有成為真正的高手,真是羞愧,好吧,在此獻醜,再具體說說運維那點事~

泛泛而談

最近一直在幫張琦老師弄一些課程安排的事情,也順便聊了聊現有教育訓練機制需要改革的方向,拒絕填鴨式的教育是當務之急,讨論之餘寫下這篇文章,僅此紀念,别無他意。有競争力的運維人員應該考慮什麼?且聽熊熊慢慢道來~

<b>運作的職能:</b>包括減少系統當機時間;依賴各種文檔尋找解決方案;根據實際情況進行裝置更新換代(改變老硬體的用途或者淘汰老硬體)

<b>支援的工作:</b>包括高可用、高可靠、高擴充性的考慮;服務的範圍(不同的服務範圍需要不同的技能要求);合理的安排時間;

<b>建立文檔:</b>非常重要的工作,包括标準化文檔(有沒有标準化是衡量一個運維人員到一個運維團隊乃至一個公司的水準的重要依據之一),為硬體打上标簽(注意用可靠的标簽,防止标簽老滑脫落);建立良好的系統安裝文檔與客戶維護文檔。一句話(文檔能力決定你能夠做到什麼位置,這句話一點都不誇張)

<b>工單系統:</b>防止扯皮的最佳辦法。具體應該包括故障工單系統的具體功能(一定要考慮的面面俱到),故障工單系統的使用者接受程度(說白了,有了工單就要嚴格執行,不然設計了跟沒設計有啥差別),随時追蹤問題解決情況。

<b>災難恢複:</b>提供上位的不二法則,老闆怕什麼,不怕你做了什麼工作業績,那是他花錢請你來覺得天經地義你應該做的。他怕的是你不做的話他會得到哪些損失,而這些損失的提前防範和發生時候的及時恢複(會不會損失資料,損失多少資料,如果不損失資料,多久可以恢複,對未來工作有沒有隐患影響)。

<b>書面政策:</b>包括運維方案政策、備份恢複政策、使用者管理政策、安全防範政策等等,别小看這些,剛才就說了,文檔能力決定你能做到什麼位置,考慮的越多,老闆越欣賞你~

具體來說

運維即運作與維護,主要負責公司整體IT系統及網絡環境的架設與硬體裝置的安裝維護工作。運維不僅是與冰冷的機器打交道,更多時候也是與人打交道(包括公司的外部使用者與内部使用者)。是以所有負責運維工作的人員應該緻力為客戶創造一個穩定、可靠的環境,所有的更新與改造都應該在測試OK的前提下遷移到正式生産環境,用一個高人的話說,“運維人員最大的成績就是沒有成績(所謂沒有成績就是指伺服器不出問題,讓任何人感覺不到伺服器的異常)”,呵呵,很悲哀吧~

降低系統當機時間是提供穩定、可靠環境的最低限度保障,沒有客戶能夠忍受昂長的系統當機時間或者網絡癱瘓時間,哪怕他隻是想上網看看新聞或者陪好友聊聊QQ等等,第一時間發現問題并排除是十分必要的(Nagios/Cacti等第三方工具提供了監控與報警機制,隻需要稍加配置并編寫合适的腳本,既可以完善你的整體伺服器監控)。

當你進入一個已經營運很久的公司來當運維的時候,第一時間就是找到他們相關的依賴文檔(這點我是深有體會,現在很多知名的網際網路企業,由于種種曆史遺留問題,并不能很好的提供這類文檔,可想而知給運維工作帶來多大的困擾)。文檔應該包括機房機櫃及硬體裝置的擺放位置,具體的伺服器型号配置及用途,網絡拓撲圖,以及相關的産品說明書甚至是合同。

小劉總是跟我抱怨其公司的伺服器太陳舊,以至于無法滿足業務需求,并且沒法更好的進行更新及改造測試,以至于他這次購置伺服器的時候詢問我的意見,我問他新購置伺服器是否考慮與原有伺服器有所關聯,可以采用移花接木的手段,将重要的資料庫系統遷移到新的伺服器中,将一些實在太老的伺服器,能整合的整合,不能整合的就直接淘汰掉吧,要知道,用在老舊伺服器維護上面的成本要遠遠高于采用新伺服器的價錢~

另一個比較重要的方面是工單系統,這個張琦老師還希望我能夠寫出一份好的工單系統以友善大家下載下傳,呵呵,其實作在有一些第三方的工單軟體,但是價格不菲,free的産品裡面還沒有發現很好用的(主要大多數是英文頁面,感興趣的朋友可以去Google一下),而且每個公司的實際情況不同,工單系統更直覺的反應了運維人員的工作狀況與品質。

這裡隻是說一下工單主要包括的内容。好的工單系統應該包括請求狀态,響應狀态,處理人員,處理時間,回報時間等等這些基本方面,而考量一個運維人員應該包括開出的工單數量,響應數量,完成數量,未完成數量,未完成原因,完成時間,錯誤重複出現率等等。一個工單制度,需要各部門的配合,否則不能做到上行下效,那麼工單隻是一紙空文罷了~

最後再說說文檔,這裡面的學問可大了,文檔降低了發生單點故障的可能性,有助于減少重複的操作,查閱文檔可以更快的解決問題以節省時間,而且建立統一的标準化文檔更利于團隊整體維護工作,不要介意将解決方法公布于衆,因為那些是早晚都會被人家知道的,技術的提高在于共享,這個道理很簡單,如果你會了,那麼你就算共享了,你依然是高手,如果你不會,通過共享你得到提高,也能夠更好的開展工作。良好的文檔能力必不可少~

一家之言,僅供參考,如有纰漏,還望不吝賜教~

<b>歡迎大家一起交流技術!互相學習!</b>

<b>個人blog</b><b>:http://bearlovecat.blog.51cto.com/</b>

<b></b>

<b>本文轉自bear_cat51CTO部落格,原文連結:</b><b>http://blog.51cto.com/bearlovecat/407214</b><b> ,如需轉載請自行聯系原作者</b>