天天看點

遠離“人禍”,關于安全運維,我們建了個系統……

近日,微盟“删庫”事件引起廣泛關注,再次給廣大企業敲響 運維安全及資料 安全 警鐘。面對日漸複雜的企業IT系統,完善企業運維安全體系,讓運維自動化、規範化,消除潛在風險,是企業目前急需解決的問題。  

BeyondBSM自動化運維平台是為企業資訊部門提供的建設運維自動化體系的一體化解決方案, 經過多年實踐經驗積累, 能夠幫助企業适應随業務發展而逐漸複雜的IT系統, 實作企業運維流程标準化、規範化、通用化,幫助 企業系統運維更加高效、 安全, 支撐企業業務安全 穩定的快速發展。

建構企業運維安全體系

随着數字化的高速發展,企業業務系統承載 巨大 價值的業務資料,運維安全不言而喻,而 惡意破壞或誤操作而導緻的運維安全事件卻屢見不鮮。 此類事件一旦發生,将給企業運作帶來巨大影響及重大的經濟損失。 面對運維安全的潛在威脅,企業如何做到防患于未然? 如何降低運維和資料安全風險,避免“删庫跑路”或誤操作等“人禍”再次發生?

作為曾經的資訊安全專業學生,目前負責運維系統建設和傳遞的工程師,雖然不能深入給大家介紹怎麼弄個蠕蟲、木馬、病毒等,但是可以先跟大家介紹下資訊安全的體系結構。

面向目标的安全體系結構

資訊安全的三個最基本目标(CIA 三元組):機密性(Confidentiality)、完整性(Integrity)、可用性(Availability)。

遠離“人禍”,關于安全運維,我們建了個系統……
面向應用層次的安全體系結構
遠離“人禍”,關于安全運維,我們建了個系統……
面向過程的資訊安全保障體系
遠離“人禍”,關于安全運維,我們建了個系統……
OSI(開放系統互聯)安全體系結構
遠離“人禍”,關于安全運維,我們建了個系統……

當然,整個資訊安全體系是個非常龐大的課題,在每個主題下,都有很細很深的知識點,比如密碼、網絡、認證體系、通路控制、入侵檢測、數字水印等,但是各位隻要粗略的了解上面的幾個安全次元,就可以很直覺地把這次事件出現問題的大緻定位,友善下文針對此次事件的回顧反思。

從安全目标三要素上來看,  這次事件破壞了系統的可用性 ,造成300萬使用者中的核心7萬多使用者的服務不可用,微盟市值蒸發10多億,由于服務中斷對使用者間接損失暫不可估。

從安全基本要素來看,  基本上系統、資訊和人員三要素都有不同程度的缺失 ,比如運作安全和資料安全以及人員管理不到位等,這個後文細說。

從安全過程上來看,系統能夠在故障後幾分鐘内識别告警處理,整體響應和恢複過程也還算迅速,是以  主要的問題還是發生在事前的保護環節 。

企業運維安全核心要點

不要把雞蛋放在一個籃子裡——備份的重要性

在伺服器業務系統的日常運作過程中,可能會存在人為誤操作或者一些無法預見性的事件發生,最終導緻資料丢失。為了減輕對業務系統影響,需要最大程度的減小資料丢失,在最短的時間内恢複資料,通過定期執行合理、完善的備份政策,可以在必要時最大限度的減少業務停機時間以及資料丢失所帶來的影響。

無論是磁盤RAID陣列、錄音帶冷備份資料,還是兩地三中心的實時備份業務架構,隻要能夠定期執行、并保證媒體安全(注意,很多企業恢複的時候才發現備份的資料有問題),相信對業務的影響應該有限。

很不幸,這次事件之是以損失如此之大,原因就是生産的備份資料也被删除了!

顯然,這個核心人員權限足夠大。

權限控制的重要性

針對通路權限過大的問題,業内使用通路控制(Access control)來管理使用者對資源的通路權限,其核心要素是  通路控制政策的制定 。

通路控制的政策模型通常有DAC(自主通路控制)、MAC(強制通路控制)、RBAC(基于角色的通路控制模型)三種。

自主通路控制模型 :特權使用者為普通使用者配置設定通路權限,可以授予或收回普通使用者的權限,靈活性較高,但是特權使用者的使用者權限太高。

此次事件,這位核心運維人員顯然擁有過高的操作權限了。

強制通路控制模型 :相較于DAC,增加了多級通路控制,每次通路的主體(提出資源通路的實體)和客體(被通路資源實體)都有對應的等級,通過主客體之間的登記比較,決定主體對客體的通路形式。

基于角色的通路控制模型 :引入了組合角色的概念,将主客體進行進一步抽象,是目前大部分系統中常用的解決方案;RBAC模型遵照三個基本模型:

  • 最小特權原則
  • 最小洩露原則
  • 多級安全政策

如果基于角色通路控制,備份資料和生産資料的通路權限分開,狀況就會好很多。

操作審計

除了事前控制,在運維過程中,也需要進行審計,最好能實時審計,這樣才能防止有人不遵守規範,進而帶來損失。例如:

  1. 通過遠端運維審計系統,增加堡壘機進行伺服器管理;
  2. 采用動态令牌等身份ID認證,實作抗抵賴性;
  3. 運維審計系統可以設計高危指令禁止或提醒确認機制;

人員管理

任你技術通天、嚴防死守,抵不住内部人員一頓操作猛如虎! 是以,最大的風險永遠不是規章制度、技術手段,而是——人。

所有的流程規則、技術控制,也都是為了防止人的風險:

  • 加強人員的技術教育訓練和管理教育訓練,增強安全意識、培養職業道德;
  • 對員工以應有的尊重,大多數技術崗位人員,沒有什麼深仇大恨不會做這麼絕;
  • 适當分工,小公司為了節約成本,一個人幹兩個人甚至多個人的活兒,連自己的分内事兒都容易忙中出錯,更别提有人員分擔工作或者A/B互補了;

所有以上建議,無非就是滿足資訊安全裡的:可追溯性(Accountability)、抗抵賴性(Non-repudiation)、真實性(Authenticity)、可控性(Controllable)這些原則而已。

血淚經驗做成一個自動化運維産品

上面的這些建議可不是信口開河,都是從血與淚的經驗中總結出來的。

關于自動化運維,我們認真做了個産品!

BeyondBSM自動化運維系統中不光  沉澱了多個客戶多年的運維使用經驗  ,而且自己在實際過程中也深有體會,因為在運維一旦自動化後,原來的效益會指數級放大,同樣的,風險也會指數級放大! 

在設計上,BeyondBSM自動化運維系統有以下幾個考慮:

基于BRAC模型的權限控制和認證管理

針對不同角色配置設定系統、菜單、按鈕權限; 人員和角色可以靈活配置:

遠離“人禍”,關于安全運維,我們建了個系統……

所有按鈕操作的權限都可進行細化,防止不具有權限的人進行操作:

遠離“人禍”,關于安全運維,我們建了個系統……

所有腳本執行,均納入審批流程,防止單個人員完成整個運維操作:

遠離“人禍”,關于安全運維,我們建了個系統……

靈活的認證方式

系統腳本執行引擎與各維護資源均采用互信方式,防止密碼洩露。

提供針對特定場景的獨立主機認證方式管理(隻有建立人有權限,密碼采用不可逆加密存儲)。

遠離“人禍”,關于安全運維,我們建了個系統……

相對隔離的上下遊資料

系統的使用者資料均對接企業内部sso、ldap,防止後門賬戶。

所有操作的資源對象,都是由上遊資産管理等類CMDB系統提供,保證了資料的準确性和一緻性;同時阻止了未納入系統的資源控制。

人機隔離和安全審計

系統底層通過自動化執行引擎worker通路機器,隔離了人直接操作機器;

遠離“人禍”,關于安全運維,我們建了個系統……

圖形化編排引擎

所有腳本執行均盡量通過圖形化選擇、編排等形式完成,最大可能避免引入人為錯誤;

遠離“人禍”,關于安全運維,我們建了個系統……

同時所有操作(無論系統内部操作還是運維執行)均有審計日志;

遠離“人禍”,關于安全運維,我們建了個系統……

實時檢視腳本執行結果: 

遠離“人禍”,關于安全運維,我們建了個系統……

對于腳本中含有的高危指令,具有  事前識别  的機制 :

遠離“人禍”,關于安全運維,我們建了個系統……

支援定時任務:

遠離“人禍”,關于安全運維,我們建了個系統……

内置備份恢複等常用場景:

遠離“人禍”,關于安全運維,我們建了個系統……

後記

有了自動化運維系統的幫助,相信很多企業的員工可以從多個方面減少出錯的機會和機率,降低了被删庫跑路的風險。

以BeyondBSM自動化運維産品為核心的運維系統已經傳遞多個金融行業客戶使用,其中包括中國某知名卡機構,該套系統在生産環境平穩運作三年多,極大地提高了運維人員的工作效率和便利性 ,支撐企業業務快速穩定發展。

繼續閱讀