天天看點

硬碟的原理以及SQL Server如何利用硬碟原理減少IO

簡介

    硬碟作為現在計算機内部最後的機械存儲部件,速度相比較記憶體和Cache而言會慢好幾個數量級。但所幸的是,硬碟的成本是遠遠低于記憶體的。是以硬碟作為永久存儲器是比較合适的,所幸的是為了克服硬碟慢速帶來的問題,作業系統會對硬碟的使用有一個優化,下面讓我們先來看硬碟的原理。

硬碟的原理簡介

    一個典型的硬碟如圖1所示。

    2

    圖1.一個典型的硬碟

    由圖1可以看到,硬碟上磁盤進行高速旋轉,磁頭臂在磁盤上來回移動進行資料的讀取和寫入。這也是為什麼我們說硬碟是一個機械部件的原因。通過圖2我們可以更抽象的來看磁盤讀取資料的方式。磁盤由圓心向外被劃分為多個磁道,所謂擺臂在磁道上來回移動也就是擺臂在磁道間的來回移動,

    1

    圖2.更抽象的硬碟原理

    除了磁道之外,一個磁道還會被劃分為多個扇區,如圖3所示。

    3

    圖3.磁道,扇區和簇

    我們可以看到,扇區是硬碟尋址的最小機關,但實際上配置設定空間時最小的機關是簇(Clusters)。這也就是為什麼硬碟上檔案的實際大小和占用空間不同的原因。

磁盤讀寫資料所花費的時間

    在了解了硬碟的基本原理之後,不難推算出,磁盤上資料讀取和寫入所花費的時間可以分為三個部分。

    1.尋道時間

     所謂尋道時間,其實就是磁臂移動到指定磁道所需要的時間,這部分時間又可以分為兩部分:

     尋道時間=啟動磁臂的時間+常數*所需移動的磁道數

     其中常數和驅動器的的硬體相關,啟動磁臂的時間也和驅動器的硬體相關

    2.旋轉延遲

    旋轉延遲指的是把扇區移動到磁頭下面的時間。這個時間和驅動器的轉數有關,我們通常所說的7200轉的硬碟的轉就是這個。

    平均旋轉延遲=1/(2*轉數每秒)

     比如7200轉的硬碟的平均旋轉延遲等于1/2*120≈4.17ms

     旋轉延遲隻和硬體有關。

    3.傳輸時間

     傳輸時間指的是從磁盤讀出或将資料寫入磁盤的時間。

     這個時間等于:所需要讀寫的位元組數/每秒轉速*每扇區的位元組數

磁盤排程算法

    通過上面硬碟讀寫資料所分的三部分時間不難看出,大部分參數是和硬體相關的,作業系統無力優化。隻有所需移動的磁道數是可以通過作業系統來進行控制的,是以減少所需移動的磁道數是減少整個硬碟的讀寫時間的唯一辦法。

    因為作業系統内可能會有很多程序需要調用磁盤進行讀寫,是以合理的安排磁頭的移動以減少尋道時間就是磁盤排程算法的目的所在,幾種常見的磁盤排程算法如下。

   1.先來先服務算法(FCFS)

      這種算法将對磁盤的IO請求進行排隊,按照先後順序依次排程磁頭。這種算法的特點是簡單,合理,但沒有減少尋道時間

    2.最短尋道時間算法(SSFT)

     這種算法優先執行所需讀寫的磁道離目前磁頭最近的請求。這保證了平均尋道時間的最短,但缺點顯而易見:離目前磁頭比較遠的尋道請求有可能一直得不到執行,這也就是所謂的“饑餓現象”。

    3.掃描算法(SCAN)

     這種算法在磁頭的移動方向上選擇離目前磁頭所在磁道最近的請求作為下一次服務對象,這種改進有效避免了饑餓現象,并且減少了尋道時間。但缺點依然存在,那就是不利于最遠一端的磁道通路請求。

    3.循環掃描算法(CSCAN)

     也就是俗稱的電梯算法,這種算法是對最短尋道時間算法的改進。這種算法就像電梯一樣,隻能從1樓上到15樓,然後再從15樓下到1樓。這種算法的磁頭排程也是如此,磁頭隻能從最裡磁道到磁盤最外層磁道。然後再由最外層磁道移動到最裡層磁道,磁頭是單向移動的,在此基礎上,才執行和最短尋道時間算法一樣的,離目前磁頭最近的尋道請求。這種算法改善了SCAN算法,消除了對兩端磁道請求的不公平。

其它優化手段以及SQL Server是如何利用這些手段

    除去上面通過磁盤排程算法來減少尋道時間之外。還有一些其它的手段同樣可以利用,在開始之前,我首先想講一下局部性原理。

局部性原理

    所謂的局部性原理分為時間和空間上的。由于程式是順序執行的,是以目前資料段附近的資料有可能在接下來的時間被通路到。這就是所謂的空間局部性。而程式中還存在着循環,是以目前被通路的資料有可能在短時間内被再次通路,這就是所謂的時間局部性原理。

     是以在了解了局部性原理之後,我們可以通過以下幾個手段來減少磁盤的IO。

提前讀(Read-Ahead)

     提前讀也被稱為預讀。根據磁盤原理我們不難看出,在磁盤讀取資料的過程中,真正讀取資料的時間隻占了很小一部分,而大部分時間花在了旋轉延遲和尋道時間上,是以根據空間局部性原理,SQL Server每次讀取資料的時間不僅僅讀取所需要的資料,還将所請求資料附近的資料進行讀取。這在SQL Server中被稱為預讀。SQL Server通過預讀可以有效的減少IO請求。

延遲寫(Delayed write)

     同樣,根據時間局部性原理,最近被通路的資料有可能再次被通路,是以當資料更改之後不馬上寫回磁盤,而是繼續放在記憶體中,以備接下來的請求讀取或者修改,是減少磁盤IO的另一個有效手段,在SQL Server中,實作延遲寫是buffer pool,當一個修改請求被commit之後,并不會立刻寫回磁盤,而是将修改的頁标記為“髒”,然後根據某種機制通過checkpoint或lazy writer寫回磁盤,關于checkpoint和lazy writer的原理,可以參考我之前的文章:淺談SQL Server中的事務日志(二)----事務日志在修改資料時的角色.

優化實體分布

     根據磁盤原理不難看出,如果所請求的資料在磁盤實體磁道之間是連續的,那麼會減少磁頭的移動距離,進而減少了尋道時間。是以相關的資料放在連續的實體空間上會減少尋道時間。SQL Server中,通過聚集索引使得資料根據主鍵在實體磁盤上連續,進而減少了尋道時間。

總結

    本文談了硬碟的原理,讀寫資料所花費的時間以及如何減少讀寫資料所花的時間,并且簡單概述了SQL Server是如何利用這些特性減少IO的占用。了解磁盤的原理是進行性能調優的基礎之一。

本文PDF版本可以點選這裡下載下傳。

分類: SQL SERVER,作業系統原理

本文轉自CareySon部落格園部落格,原文連結:http://www.cnblogs.com/CareySon/archive/2012/08/20/2647017.html,如需轉載請自行聯系原作者

繼續閱讀