天天看點

影響RAID資料可靠性因素分析

無論是最終使用者還是存儲系統研發人員,都想知道影響RAID資料可靠性的因素具體有哪些?這些影響因素對資料可靠性具體會導緻什麼樣的影響?對于研發和使用者我們可以采用什麼樣的配置、什麼樣的技術保證資料可靠性。在此存儲老吳和大家一起分享一下影響RAID資料可靠性的幾大因素,通過這些分析,我們可以體會到為什麼存儲虛拟化技術、Erasure Code、多副本會成為技術發展的主流。

概括起來,對磁盤存儲系統而言,影響RAID資料可靠性的三大因素如下:

1,磁盤容量。随着磁盤容量的增加,資料丢失的機率會大為增加,資料可靠性降低

2,資料重構性能。提升資料重構性能,增加資料可靠性

3,資料保護級别。增加資料備援度,降低資料丢失機率,提升資料可靠性

根據具體的評測結果,資料丢失的機率和三個影響因素之間的關系如下表所示:

影響RAID資料可靠性因素分析

從上表可以看出,随着磁盤容量的增加,在相同資料重構性能和資料保護級别下,資料丢失的機率也随之增加。磁盤容量的增加是影響資料可靠性的一個重要因素。

影響RAID資料可靠性因素分析

如上圖所示,在RAID5資料保護級别下,在相同資料重構(10MB/s)的性能下,随着磁盤容量的增加,資料丢失機率急劇增加,并且理論值和實際值差别很大。理論上,RAID5的資料丢失機率基本線性增長,在2TB容量下,資料丢失機率達到3.15%。但是在實際測試過程中發現,在2TB的磁盤容量下,5年内資料丢失的機率竟然達到了52.2%。這已經說明在10MB/s資料重構性能下,RAID5資料保護級别已經不能在大容量存儲系統中應用了,存在極高的資料丢失風險。在EMC的磁盤備份、歸檔系統中,考慮了這方面的因素。應用大容量磁盤作為資料備份應用時,都會直接采用RAID6資料保護級别。但是即使在這種情況下,在全球每年仍然會出現很多資料丢失的案例。

從技術的角度分析,磁盤容量的增加導緻資料丢失的機率提升,這是很容易了解的。在相同的資料重構性能前提下,一旦RAID5系統進入降級模式對資料進行恢複時,此時系統已經不具備資料保護的能力了。在降級模式下如果再次發生磁盤故障,那麼就會導緻資料丢失。磁盤容量的增加勢必會延長降級模式的時間,是以資料丢失的機率也會急劇增加。從分析可以看出,影響資料丢失機率的是降級模式時間。是以可以通過提升資料重構的性能來縮短降級模式的時間,進而降低資料丢失的機率,達到增強資料可靠性的目的。

如下圖所示,通過提升資料重構的性能,的确可以增強資料可靠性,降低資料丢失的機率。

影響RAID資料可靠性因素分析

無論是從理論上還是從實際的測試結果都可以看出,提升資料重構的性能可以降低資料丢失的機率。從上面的資料可以看出,資料重構性能從10MB/s提升到60MB/s之後,資料丢失機率減小到以前的1/5以下。根據這個原理,在RAID的設計方面想盡了一切辦法去提升資料重構性能。可以想到的方法有局部資料重構、基于優先級排程的資料重構、基于拷貝方式的資料重構以及抛棄傳統RAID架構,采用de-clustered RAID的資料分布方式。這些不同的方法,其一個很重要的目的就是為了提升資料重構性能,進而增強資料可靠性。

由于受限于傳統RAID的資料分布限制,傳統RAID無論采用何種方式進行優化,其資料重構性能都無法進行擴充,峰值性能局限為單盤寫性能。正因為這個原因,RAID研發人員開始抛棄傳統RAID架構,提出de-clustered RAID、Dynamic Disk Pool、Dynamic RAID以及RAID2.0等概念。這些概念背後的唯一思想是将存儲虛拟化(底層虛拟化技術)技術引入到RAID設計中。通過虛拟化技術的應用,使得資料重構性能可以随着磁盤數量的增加而線性增加。這是一個非常重要的突破,閃存系統、分布式存儲系統中的資料保護,很多都将采用這一思想。

影響資料可靠性的另一個因素是資料保護級别。如果說提升資料重構性能僅僅是對資料可靠性的一種優化,那麼改變資料保護級别将會對資料可靠性帶來巨大提升。下圖對比了在不同資料保護級别下的資料丢失機率。

影響RAID資料可靠性因素分析

從對比結果可以看出,采用RAID6之後,資料丢失機率大為降低。在1TB磁盤容量情況下,資料保護級别從RAID5提升到RAID6之後,資料丢失機率從52.2%降到0.15%,這是非常驚人的資料可靠性提升。基于此,RAID資料保護技術的一個很重要方向是Erasure code,通過Erasure Code可以進一步增加資料備援度,避免多盤同時損壞所引入的資料丢失問題。RAID5可以容忍單盤損壞;RAID6可以容忍兩塊同時損壞;采用Erasure Code之後,可以容忍超過兩塊盤同時發生故障。從技術的角度來看,增加備援度,本身也是為了降低發生無資料保護降級模式的機率。從這一點上來看,提高資料重構性能和增加備援度都是為了減少無資料保護降級模式的時間視窗。

單個RAID6資料保護系統看似資料丢失的機率很低,但是,在實際的一個大容量存儲系統(PB級)中,RAID6發生資料丢失機率将會急劇增加。并且随着大容量磁盤的應用,RAID6資料保護系統的資料丢失機率将會使得系統不可用。下圖給出了不同容量磁盤建構RAID6時,在海量存儲系統中的資料丢失機率。

影響RAID資料可靠性因素分析

繼續閱讀