天天看點

IO系統性能之二:緩存和RAID如何提高IO。

一個15k轉速的磁盤在随機讀寫通路的情況下IOPS竟然隻有140左右,但在實際應用中我們卻能看到很多标有5000IOPS甚至更高的存儲系統,有這麼大IOPS的存儲系統怎麼來的呢?這就要歸結于各種存儲技術的使用了,在這些存儲技術中使用最廣的就是高速緩存(Cache)和磁盤備援陣列(RAID)了,本文就将探讨緩存和 磁盤陣列提高存儲IO性能的方法。   

高速緩存(Cache)

  在當下的各種存儲産品中,按照速度從快到慢應該就是 記憶體>閃存>磁盤> 錄音帶了,然而速度越快也就意味着價格越高,閃存雖然說是發展勢頭很好,但目前來說卻還是因為價格問題無法普及,是以現在還是一個磁盤作霸王的時代。與 CPU和 記憶體速度相比,磁盤的速度無疑是計算機系統中最大的瓶頸了,是以在必須使用磁盤而又想提高性能的情況下,人們想出了在磁盤中嵌入一塊高速的記憶體用來儲存經常通路的資料進而提高讀寫效率的方法來折中的解決,這塊嵌入的記憶體就被稱為高速緩存。   說到緩存,這東西應用現在已經是無處不在,從處于上層的應用,到 作業系統層,再到磁盤控制器,還有 CPU内部,單個磁盤的内部也都存在緩存,所有這些緩存存在的目的都是相同的,就是提高系統執行的效率。   當然在這裡我們隻關心跟IO性能相關的緩存,與IO性能直接相關的幾個緩存分别是檔案系統緩存(File System Cache)、磁盤控制器緩存(Disk Controller Cache)和磁盤緩存(Disk Cache,也稱為Disk Buffer),不過當在計算一個磁盤系統性能的時候檔案系統緩存也是不會考慮在内的,是以我們重點考察的就是磁盤控制器緩存和磁盤緩存。   不管是控制器緩存還是磁盤緩存,他們所起的作用主要是分為三部分:緩存資料、預讀(Read-ahead)和回寫(Write-back)。   

緩存資料

  首先是系統讀取過的資料會被緩存在高速緩存中,這樣下次再次需要讀取相同的資料的時候就不用在通路磁盤,直接從緩存中取資料就可以了。當然使用過的資料也不可能在緩存中永久保留的,緩存的資料一般那是采取LRU算法來進行管理,目的是将長時間不用的資料清除出緩存,那些經常被通路的卻能一直保留在緩存中,直到緩存被清空。   

預讀

  預讀是指采用預讀算法在沒有系統的IO請求的時候事先将資料從磁盤中讀入到緩存中,然後在系統發出讀IO請求的時候,就會實作去檢檢視看緩存裡面是否存在要讀取的資料,如果存在(即命中)的話就直接将結果傳回,這時候的磁盤不再需要尋址、旋轉等待、讀取資料這一序列的操作了,這樣是能節省很多時間的;如果沒有命中則再發出真正的讀取磁盤的指令去取所需要的資料。   緩存的命中率跟緩存的大小有很大的關系,理論上是緩存越大的話,所能緩存的資料也就越多,這樣命中率也自然越高,當然緩存不可能太大,畢竟成本在那兒呢。如果一個容量很大的存儲系統配備了一個很小的讀緩存的話,這時候問題會比較大的,因為小緩存緩存的資料量非常小,相比整個存儲系統來說比例非常低,這樣随機讀取(資料庫系統的大多數情況)的時候命中率也自然就很低,這樣的緩存不但不能提高效率(因為絕大部分讀IO都還要讀取磁盤),反而會因為每次去比對緩存而浪費時間。   執行讀IO操作是讀取資料存在于緩存中的數量與全部要讀取資料的比值稱為緩存命中率(Read Cache Hit Radio),假設一個存儲系統在不使用緩存的情況下随機小IO讀取能達到150IOPS,而它的緩存能提供10%的緩存命中率的話,那麼實際上它的IOPS可以達到150/(1-10%)=166。   

回寫

  首先說一下,用于回寫功能的那部分緩存被稱為寫緩存(Write Cache)。在一套寫緩存打開的存儲中, 作業系統所發出的一系列寫IO指令并不會被挨個的執行,這些寫IO的指令會先寫入緩存中,然後再一次性的将緩存中的修改推到磁盤中,這就相當于将那些相同的多個IO合并成一個,多個連續操作的小IO合并成一個大的IO,還有就是将多個随機的寫IO變成一組連續的寫IO,這樣就能減少磁盤尋址等操作所消耗的時間,大大的提高磁盤寫入的效率。   讀緩存雖然對效率提高是很明顯的,但是它所帶來的問題也比較嚴重,因為緩存和普通 記憶體一樣,掉點以後資料會全部丢失,當 作業系統發出的寫IO指令寫入到緩存中後即被認為是寫入成功,而實際上資料是沒有被真正寫入磁盤的,此時如果掉電,緩存中的資料就會永遠的丢失了,這個對應用來說是災難性的,目前解決這個問題最好的方法就是給緩存配備 電池了,保證存儲掉電之後緩存資料能如數儲存下來。   和讀一樣,寫緩存也存在一個寫緩存命中率(Write Cache Hit Radio),不過和讀緩存命中情況不一樣的是,盡管緩存命中,也不能将實際的IO操作免掉,隻是被合并了而已。   控制器緩存和磁盤緩存除了上面的作用之外還承當着其他的作用,比如磁盤緩存有儲存IO指令隊列的功能,單個的磁盤一次隻能處理一個IO指令,但卻能接收多個IO指令,這些進入到磁盤而未被處理的指令就儲存在緩存中的IO隊列中。  

RAID(Redundant Array Of Inexpensive Disks)

  如果你是一位資料庫管理者或者經常接觸 伺服器,那對RAID應該很熟悉了,作為最廉價的存儲解決方案,RAID早已在 伺服器存儲中得到了普及。在RAID的各個級别中,應當以RAID10和RAID5(不過RAID5已經基本走到頭了,RAID6正在崛起中,看看這裡了解下原因)應用最廣了。下面将就RAID0,RAID1,RAID5,RAID6,RAID10這幾種級别的RAID展開說一下 磁盤陣列對于磁盤性能的影響,當然在閱讀下面的内容之前你必須對各個級别的RAID的結構和工作原理要熟悉才行,這樣才不至于滿頭霧水,推薦檢視wikipedia上面的如下條目:RAID,Standard RAID levels,Nested RAID levels。  

 RAID0

  RAID0将資料條帶化(striping)将連續的資料分散在多個磁盤上進行存取,系統發出的IO指令(不管讀IO和寫IO都一樣)就可以在磁盤上被并行的執行,每個磁盤單獨執行自己的那一部分請求,這樣的并行的IO操作能大大的增強整個存儲系統的性能。假設一個RAID0陣列有n(n>=2)個磁盤組成,每個磁盤的随機讀寫的IO能力都達到140的話,那麼整個 磁盤陣列的IO能力将是140*n。同時如果在陣列總線的傳輸能力允許的話RAID0的吞吐率也将是單個磁盤的n倍。  

 RAID1

  RAID1在容量上相當于是将兩個磁盤合并成一個磁盤來使用了,互為鏡像的兩個磁盤裡面儲存的資料是完全一樣的,是以在并行讀取的時候速度将是n個磁盤速度的總和,但是寫入就不一樣了,每次寫入都必須同時寫入到兩個磁盤中,是以寫入速度隻有n/2。   

RAID5

  我們那一個有n(n>=3)個磁盤的RAID5陣列來看,首先看看RAID5陣列的讀IO,RAID5是支援并行IO的,而磁盤上的資料呈條帶狀的分布在所有的磁盤上,是以讀IO的速度相當于所有磁盤速度的總和。不過這是在沒有磁盤損壞的情況下,當有一個磁盤故障的時候讀取速度也是會下降的,因為中間需要花時間來計算丢失磁盤上面的資料。   讀取資料的情況相對就要複雜的多了,先來看下RAID5奇偶校驗資料寫入的過程,我們把寫入的資料稱為D1,當磁盤拿到一個寫IO的指令的時候,它首先會讀取一次要入的位址的資料塊中修改之前的資料D0,然後再讀取到目前條帶中的校驗資訊P0,接下來就根據D0,P0,D1這三組資料計算出資料寫入之後的條帶的奇偶校驗資訊P1,最後發出兩個寫IO的指令,一個寫入D1,另一個寫入奇偶校驗資訊P1。可以看出陣列在實際操作的時候需要讀、讀、寫、寫一共4個IO才能完成一次寫IO操作,也就是實際上的寫入速度隻有所有磁盤速度總和的1/4。從這點可以看出RAID5是非常不适合用在要大批量寫入資料的系統上的。  

 RAID6

  RAID6和RAID5很類似,差别就在于RAID6多了一個用于校驗的磁盤。就寫IO速度上來說這兩個是完全一樣的,都是所有磁盤IO速度的總和。   在寫IO上也很是類似,不同的是RAID将一個指令分成了三次讀、三次寫一共6次IO指令才能完成,也就是RAID6實際寫入磁盤的速度是全部磁盤速度之和的1/6。可以看出從寫IO看RAID6比RAID5差别是很大的。   

RAID10

  RAID0讀寫速度都很好,卻沒有備援保護;RAID5和RAID6都有同樣的毛病就是寫入的時候慢,讀取的時候快。那麼RAID1呢?嗯,這裡要說的就是RAID1,其實不管是RAID10還是RAID01,其實都是組合大于2塊磁盤時候的RAID1,當先鏡像後條帶時候就稱為RAID10,先條帶後鏡像的時候稱為RAID01。從性能上看RAID01和RAID10都是一樣的,都是RAID1嘛,但是RAID10在重建故障磁盤的時候性能比RAID01要快。   因為RAID10其實就是RAID1,是以它的性能與RAID1也就是一樣的了,這裡不需要再做過多的讨論。   

四個性能名額的變化

  

IO響應時間(IO Response Time)

  在任何時候IO響應時間值得都是單個IO的響應時間,是以,不管磁盤是否組成了 磁盤陣列,它的IO響應時間應該都是一樣的。從前面的計算中我們可以看到,如果IO響應時間在10ms左右的話是很正常的,但是當IO響應時間比這個值超出太多的時候,你就要開始注意了,很可能就意味着此時你的磁盤系統已經成為了一個瓶頸。   

IOPS

  綜合上面兩個部分的讨論我們來估算一下陣列下的磁盤總體IOPS,在這裡我們先假設組成陣列的單個磁盤的随機讀寫的IOPS為140,讀寫緩存命中率都為10%,組成陣列的磁盤個數為4。   因為不管是那種陣列,磁盤的讀取性能都是所有磁盤之和,是以可以得出下面的讀取IOPS:    read IOPS = disk_IOPS/(1-read_cache_hit_ratio)*disk_num = 140/(1-10%)*4 = 622   而寫入性能就完全不一樣了,根據上面的讨論我們可以得出下面結論:    RAID0: 1 IO request => need 1 actual IO on disk

  RAID1: 1 IO request => need 2 actual IO on disk

  RAID5: 1 IO request => need 4 actual IO on disk

  RAID6: 1 IO request => need 6 actual IO on disk   由此我們也可以計算出寫入IOPS估算公式:    RAID0 write IOPS = disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num = 140/(1-10%)*4/1 = 622

  RAID1 write IOPS = disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num = 140/(1-10%)*4/2 = 311

  RAID5 write IOPS = disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num = 140/(1-10%)*4/4 = 155

  RAID6 write IOPS = disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num = 140/(1-10%)*4/6 = 103   實際上從通過上面的計算方法我們還可以估算當給定一個要求的IOPS的情況下,估計下使用各個陣列級别所需要的磁盤的數量。當然我們上面的計算方法隻是一個估算,我們忽略很多其他的因素,得出的隻是一個大概的數值,不過在實際的應用還是有一定的參考作用的。   本篇最後附送一個計算磁盤系統IOPS的網站――wmarow’s disk & disk array calculator,這個網站提供的計算公式還考慮了諸如陣列條帶大小以及主機方面的因素,很有參考價值,至于怎麼選擇合适的條帶大小,以後還會撰文解釋。   

傳輸速度(Transfer Rate)/吞吐率(Throughput)

  實際上估算除了随機讀寫的IOPS也就知道了随機讀寫的吞吐率。對于順序讀寫的呢,還是跟前一篇所講的一樣,主要受限于磁盤的限制,不能再拿IOPS來衡量了。    random_throughtput = random_IOPS * IO_chunk_size