天天看點

時間準度對資料中心的重要性

俗話說“失之毫厘,謬以千裡”,時間的精準度對于我們的工作、生活都非常重要。2000年的千年蟲事件以及2017年元旦全球多一秒事件,都引起了人們的高度關注,尤其是資料中心行業。資料中心裡很多系統都依賴時間來正常運作,人們要認真評估這一時間變化對内部運作裝置的影響,如果裝置不能夠自行調整時間,則就會與實際時間産生偏差,是以而帶來一系列誤判,導緻問題。是以,時間精準度對于資料中心來講是非常重要的參量。

資料中心的時間有兩個次元含義,一個是相對時間。比如很多的網絡裝置要啟用ospf、arp、mac等各種協定,每種協定都有各種各樣的定時器,以便實時判斷協定狀态是否有變化。ospf鄰居要通過一定間隔時間收發hello封包保持鄰居狀态為full,一旦超過三個hello封包的發送時間間隔,一個hello封包也沒有收到,就認為這個鄰居狀态發生了變化,鄰居狀态由full切換到init或down,記錄hello封包逾時的時間定時器要準确,周期性地記錄每個hello封包的收時間,以便統計準确;另一個是絕對時間,就是北京标準時間,每天我們在新聞聯播時看到的時間,2000年的千年蟲事件以及2017年元旦全球多一秒事件都說的是這個時間。資料中心有很多裝置,這些裝置運作中會産生很多的日志和告警資訊,所有的資訊都有時間紀錄,隻有這個時間準确,才能通過這些時間來進行分析問題。比如資料中心發生了業務中斷,我們首先要知道是什麼時候中斷的,持續多長時間,與哪些裝置有關,然後再去查找這個時間點,裝置上留下的相關紀錄,時間的準确性對于分析業務中斷原因非常關鍵,如果沒有各個裝置的準确運作時間,就無法判斷哪些資訊是中斷時報出的,哪些資訊與故障有關,故障将很難分析出結果,是以絕對時間也非常重要。

無論是相對時間,還是絕對時間,對于資料中心運作都非常重要,同時也要保證兩個時間的準度,如果精度太差,也會産生不少問題。上面也有介紹,會導緻網絡協定的各種定時器判斷不準确,發生故障時無法明确哪些是故障時間報出的,這隻是舉個示例,其實還有更多的方面。如果相對時間不準,誤差大,伺服器上的應用系統也會出問題,如果要是銀行的存取款業務系統,每存一筆錢時間都慢慢将誤差拉大,可能到最後,連儲戶上的錢數資料記錄都出現錯誤,甚至出現丢失的情況。如果相對時間不準,二三層轉發網絡,表項老化的時間都不一緻,有長有短,導緻表項學習不穩定,流量轉發出現丢包,嚴重的會導緻表項無法學習,造成網絡中斷;如果是絕對時間不準,資料中心所有裝置記錄的資訊都是不準确的,各個裝置之間的資訊也沒有可對比性,互相之間的影響和作用就無法從時間軸上分得清楚。在一些重要變更和操作時,由于絕對時間的不準确,會導緻操作的時機不是最優的,在變更和裝置準确上不同步,進而會産生這樣那樣的問題。

既然時間準度對資料中心這麼重要,那就要提升時間準度了。不過,提升時間準度可不是一件輕松的事兒。首先,對于相對時間,這個和中原標準時間無關,與個體裝置有關,這個隻能靠裝置内部的實作來保證。很多網絡裝置在内部會設定很多定時器,這些定時器專門記錄各種協定的運作時間,以便判斷協定的狀态是否正常,這個時間一般通過cpu的晶振頻率計算獲得。這樣相對時間的準确度和裝置的cpu性能有很大關系,往往是越高端的裝置采用的cpu晶振頻率越準,當然這類裝置的價格也要高很多。其次,對于絕對時間,為保證資料中心内部所有裝置的時間一緻,可以通過将所有裝置的時間對一遍,盡量做到時間同步,不過每個裝置的時間準度不同,有的裝置運作個一年半載,偏差可能達到數十秒,而有的裝置偏差卻很小,這樣雖然當初時間都對過,不同裝置的運作時間是一緻的,随着運作時間越來越長,誤差變得越來越大,是以這種方式不可行。更多的資料中心是通過設定一個ntp伺服器,這個伺服器可以是網絡裝置也可以伺服器,甚至是專用的授時裝置,然後資料中心裡所有裝置都通過這台裝置來擷取時間,進而整個資料中心裡的裝置運作時間是完全一緻的。如果采用一般的網絡裝置做ntp伺服器,運作個幾個月,這些伺服器運作時間與實際時間偏差可能達到數十秒,雖然這些時間偏差比較大,但仍能保證這些裝置之間的相對時間是一緻的,并不妨礙各種工作的開展,包括問題定位。不過,有的時候資料中心業務對時間要求比較高,這時就需要使用專用的授時裝置做ntp伺服器。授時裝置運作時間誤差小,精度可以達到毫秒甚至微秒級,與中原標準時間保持完全一緻,即使運作時間久了,偏差也在微秒級,這就保證了資料中心裡所有裝置與實際中原標準時間完全一緻,避免因為時間不準确,導緻這樣那樣的問題。除了授時系統,還有時間頻率基準,守時用原子鐘,星載原子鐘等技術,采用這些技術都可以大幅提升資料中心的時間準度。

時間準度已經成為資料中心運作中至關重要的參量,一切的資料中心活動都和時間準度有密切關系。資料中心對高精度時間頻率的需求越來越強烈,需要一系列精度越來越高的計時器具,同時要在各個裝置之間做好時間同步工作,保持裝置之間時間的一緻性,以便于開展各種資料中心運維工作。

作者:佚名

來源:51cto