天天看點

健康與風險:資料中心容量管理的新模式

有分析公司認為,目前對于任何大型IT企業都必不可少的流程:容量能力管理往往都非常的複雜。而且,在當今加速發展的商業世界中,這種管理往往無法有效實施。優先級的改變、日益增加的複雜性和可擴充的雲基礎架構使得傳統的容量管理模式已經不太奏效。在新技術的支援下,由創新的IT上司者推動,新的容量能力管理模式正在出現。這種新的模式将IT資源使用視為對業務有意義的,使用自動化和分析來管理複雜性,并減少人工操作。

在本文中,我們将與廣大讀者諸君共同讨論如何将容量管理中所涉及到的複雜監控、分析和預測縮減為一項健康的服務(目前績效)名額,以及服務風險(未來績效)的一個名額,使所有利益相關方更易于管理和更具可視化。

容量管理的戰略優勢

健康與風險:資料中心容量管理的新模式

容量管理平衡成本和風險

在簡化的意義上,IT容量管理是平衡業務服務的成本和性能的基礎,其中基礎設施的配置設定和配置是支點。如果您企業的基礎設施配置不當或不足以支援業務需求,可能會發生長時間的響應時間問題和中斷,進而使業務損失高達上百萬。

避免這種情況的一種典型方法是過度配置基礎設施,即估計所需要的容量,并使之翻一番。據估計,多達50%的雲基礎設施是未使用的,這種現象在實體存儲中甚至更多。過度配置浪費了大量的硬體,軟體許可和管理成本。而訣竅就在于合理化您企業的基礎設施規模,以滿足目前的需求,并确切的知道何時何地需要增加多少額外的容量。

為了有效優化業務服務,容量管理過程由四個主要步驟組成:

資料收集和管理。收集您企業環境中每款應用程式、服務和系統的詳細資訊和相關的性能資料。

資料分析。分析資料以确定服務的健康狀況,潛在的性能問題以及這些問題的根本原因,以便您可以解決這些問題。

預測。準确預測資源短缺何時何地會發生,這樣才能避免資源短缺。

送出可執行的資訊。為各利益相關方:IT分析師、服務經理和業務上司提供他們可以據此做出決策所需的資訊。

使IT變得如此具有挑戰性的是,鑒于動态發展的技術,不斷變化的業務需求和需求的增長都增加了複雜性,使得IT環境不斷變化。時間一直是性能問題的本質,但是IT人員分散在各種任務和項目中,減少了確定服務傳遞的時間。最後,容量管理專長越來越少。根據一家業界領先的分析公司Research In Action預測,到2020年,容量和性能管理的技能缺乏将成為75%的企業增長的主要制約因素或風險。

或許正是由于這些挑戰的存在,使得許多技術上司者認為,容量管理是一大競争優勢,在未來幾年将會變得更加如此。據Research In Action預測,到2020年,35%的企業将使用容量管理工具來獲得競争優勢(而今天的比例則為20%)。

有效的容量管理所帶來的競争優勢:

減少了員工緻力于提供高可用性和一緻的服務所花費的時間

減少任務關鍵型應用程式的停機時間和瓶頸

優化硬體,軟體和雲存儲投資

更有效的業務規劃,使IT投資與業務目标保持一緻

保護企業品牌聲譽

借助自動化管理複雜性

近年來,大部分已經成功的部署了容量管理的IT企業均使用了分析和自動化。這種方法的優點是速度和準确性,即使在非常複雜的環境中,但需要花費相當的時間,并采用恰當的工具和流程來有效實施。

要了解這種方法,如下,讓我們來探讨前面所述的每個核心流程:

資料收集和管理

資料分析

預測

提供可執行的資訊

資料采集

性能資料必須以具備足夠的細粒度級别進行收集,以滿足業務交易的需求。例如,實時交易和線上購物需要比批量處理更多的細粒度。請記住,您企業所使用的收集工具必須以自動化和高度可擴充的方式提供詳細,及時的資料,以確定項目的成功。

傳統上,這種分析是由容量管理專家通過簡單的工具(如電子表格)“手動”檢查資料;或通過建構和維護定制的工具和查詢來執行的。這種類型的手動分析需要花費大量的時間和專業知識,并用到在許多企業中已經薄弱的資源。自動化是一大解決對策,盡管在這方面存在較少的可行解決方案。曆史上,許多這些“自動化”解決方案仍然需要大量的時間來設定,并在提供有用的資訊方面仍然受限。然而,技術現在可以用更實際和更有效的方式解決分析問題。

為了準确預測性能,我們需要認識到,計算機系統的行為不是線性的。如果其是線性的,那麼預測就像線性趨勢一樣簡單。現實是排隊發生。排隊是指當一款CPU、控制器或其他裝置有超出其所能夠執行處理的工作進入時的情況。然後,服務不得不等待排隊,就像排隊等待在商店款台結帳一樣。當隻有很短的隊伍或沒有排隊時,響應時間與所添加的工作成比例。您企業再添加一些工作,一些應用程式或基礎架構,就有了更多的工作亟待處理。排隊由此開始,突然間的延遲是巨大的。這就是所謂的曲線中可怕的拐點,之後的響應時間呈指數增長——等待時間比工作時間還要長,響應受到很大的影響。

健康與風險:資料中心容量管理的新模式

經常,IT假設延遲将始終是線性的,而他們也正在瘋狂地争取解決這一問題。

為了避免拐點,許多IT機構遵循始終不讓系統所處理的任務太繁忙的政策,這意味着過度配置——保險但卻造成了浪費。他們為避免拐點付出了太多代價。

你企業必須清楚的知道拐點将在何處出現,以便在沒有過度配置的情況下避免它,這需要了解IT元件如何互動來執行工作。使用各種技術來預測性能的不同程度的精度,從Excel電子表格到線性趨勢,到模拟模組化,再到分析模組化。

然而,直到最近,這些解決方案都需要用到大量的專業知識,專長和時間。慶幸的是,現在可以非常及時地自動獲得預測。

有效執行上述三個領域的結果應是生成可執行的資訊和具備可視化的報告。由于IT決策通常對整個業務有影響,是以這些資訊也必須以對非IT利益相關者有意義的方式呈現。例如,根據業務名額(如銷售,SLA或正常運作時間)而不是根據諸如記憶體或I /O等IT名額。IT部門花費數百或數千小時為各利益相關者建立報告并不常見。盡可能的情況下,報告任務也應自動化,使IT人員能夠專注于主動解決問題和創新。

案例:JN資料公司如何管理複雜性

實時識别和了解企業中值得關注的内容幫助JN資料公司的容量經理Henrik Tonnisen向主要客戶(其中包括丹麥第三大銀行Jyske Bank和丹麥最大的抵押貸款公司Nykredit)傳遞提供了市場領先的服務,資源效率和透明度。

為此,Tonnisen将來自數萬台伺服器的技術資料融合到動态的自助服務報告中,以滿足每個業務利益相關者的需求,将讨論從複雜的技術名額轉變為可操作的業務資訊。

Tonnisen表示,他們的團隊在宣布推出新的自助報告儀表闆後,獲得了利益相關者的一緻好評。

一種新的模式

自動化和分析已被證明對現代容量管理所帶來的挑戰是有效的。然而,直到最近,這些解決方案也仍然需要大量的時間和專門知識來實作有效的實施。

目前,一種新的模式正席卷了整個行業。這種新的模式使用自動健康和風險評分來識别目前和未來的性能,以及未來的時間架構和嚴重程度問題。這是遊戲規則的一個改變:節省了時間,需要的專業知識更少,使所有IT10企業的容量管理更簡單,更易于通路。

為了友善計算每項服務的簡單,易于了解的健康和風險分數,在幕後運作的是複雜的算法。監控清單可以被定義為将注意力集中在您所使用的服務上,負責并且容易地确定需要采取的行動,無論是解決目前問題還是擴充容量,以避免未來的問題。您企業不再需要花費數不清的時間在資料上了。自動算法将為您執行。

為什麼要實行健康和風險評分?

健康和風險分數涉及容量管理過程中的兩大主要功能領域:

性能管理——識别和解決導緻應用程式響應緩慢和服務中斷的性能問題(健康狀況)

容量規劃——預測何時需要進行容量更新或額外的基礎架構,以避免服務性能不佳或中斷(風險)

健康和風險分數如何計算?健康分數

通過深入了解包含服務的每個系統來計算健康評分。分析排隊網絡模型用于計算實際的CPU和I / O性能,并與每個系統的理論最佳性能相比較。記憶體将根據目前的使用率進行評估,并通過查找與記憶體管理的正常活動級别的任何偏差來進行評估。通過檢查目前可用容量和曆史行為模式來評估磁盤空間使用情況。分析結果被整合并歸一化,以建立一個易于解釋的健康評分,範圍從0到100,0-44表示健康狀況不佳,45-54表示需要警告,55-100表示??健康狀況良好。

風險評分

風險評分是通過運作容量規劃算法來确定的,進而預測将來服務将如何運作。容量規劃算法預測服務增長率對構成服務的系統的影響。分析排隊網絡模型用于計算未來的CPU和磁盤I / O性能,并與系統的理論最優性能進行比較。這些模型産生了一系列預測,這些預測說明了我們之前讨論的計算系統中固有的非線性行為。

通過評估活動模式并在預測期結束時預測磁盤空間的使用情況。基于這些計算,生成風險分數來表示預測風險的嚴重性。風險分數歸一化為0至100的範圍,以代表風險量,0-44表示低風險,45-54表示警告,55-100表示??高風險。除了風險評分,還将預計發生性能不佳或停電情況的日期。通過在預測結果中查找一次性事件和周期性行為來預測風險何時發生,并計算發生風險的天數。

簡單性是王道

鑒于所有的工作自動發生在幕後,容量管理要簡單得多,所有的IT企業都更容易通路。企業不再需要雇傭大量資料科學家,從業人員的工作時間得以節省下來,預測不再需要内行專家。 IT人員和服務經理可以檢視健康和風險的單一名額,其次知道應該在哪裡集中注意力。

準确性事項

算法和計算的準确性非常重要。那麼他們有多準确呢?

對于CPU和I / O活動而言,到目前為止,最準确的健康和風險測定使用分析排隊網絡模型。

對于磁盤空間和記憶體而言,智能算法評估使用率和子系統活動的模式,以準确地解釋目前,并預測未來的使用率。

所有這些方法都适應工作負載,配置和其他環境變化。使用這些方法與複雜的算法,最終的結果是行業中最準确的健康和風險計算,準确率通常為95%.

評估您企業的選項

目前市場上有各種容量管了解決方案,可滿足不同的企業環境和不同需求。而為了有效地評估它們,比較功能和方法是有幫助的,并且有助于了解它們将如何影響您企業的容量管理成果。

為了确定IT和業務服務的健康狀況,通常會執行以下方法,其中已加标的項目代表在新模式中采用的方法:

标準門檻值比較

增強門檻值比較

事件檢測

從正常運作到變化的比較

配置設定比較

排隊理論

為了确定IT和業務服務的風險,通常會執行以下方法,其中已加标的項目代表在新模式中采用的方法:

線性趨勢

增強趨勢

事件預測

配置設定預測

諸如标準門檻值比較和事件檢測等選項更容易設定,但提供的精度要低得多。配置設定比較和預測适用于虛拟環境,但是缺乏驅動資源效率的能力,因為它們需要考慮配置設定的内容與使用的内容。排隊理論需要智能配置和細粒度資料,但在确定服務健康和風險方面提供了更為準确的結果。

在選擇企業容量管了解決方案時,應考慮以下因素:

環境中的實體和虛拟伺服器的數量IT企業所管理的服務的數量

未來3年預計的基建投資情況

目前基礎設施過剩的程度

關鍵服務中斷的潛在成本

這些因素将支撐能力管理投資的潛在回報,并有助于确定您企業所應該追求的解決方案類型。

原文釋出時間為:2017-11-13

本文作者:佚名

本文來自雲栖社群合作夥伴51CTO,了解相關資訊可以關注51CTO。

繼續閱讀