天天看點

linux wa%過高,iostat檢視io狀況

使用者回報一台虛機監控ssh失敗,其top名額中wa搞到87.2%

Cpu(s):  0.1%us,  0.1%sy,  0.0%ni, 12.5%id, 87.2%wa,  0.0%hi,  0.0%si,  0.0%st

使用top指令的時候會看到這麼一行

linux wa%過高,iostat檢視io狀況

us:使用者态使用的cpu時間比

sy:系統态使用的cpu時間比

ni:用做nice權重的程序配置設定的使用者态cpu時間比

id:空閑的cpu時間比

wa:cpu等待磁盤寫入完成時間

hi:硬中斷消耗時間

si:軟中斷消耗時間

st:虛拟機偷取時間

如果一台機器看到wa特别高,那麼一般說明是磁盤IO出現問題,可以使用iostat等指令繼續進行詳細分析。

1.安裝

yum install sysstat

2. 使用樣例

iostat -d -k 2

參數 -d 表示,顯示裝置(磁盤)使用狀态;-k某些使用block為機關的列強制使用Kilobytes為機關;2表示,資料顯示每隔2秒重新整理一次。

linux wa%過高,iostat檢視io狀況

 tps:該裝置每秒的傳輸次數(Indicate the number of transfers per second that were issued to the device.)。"一次傳輸"意思是"一次I/O請求"。多個邏輯請求可能會被合并為"一次I/O請求"。"一次傳輸"請求的大小是未知的。 kB_read/s:每秒從裝置(drive expressed)讀取的資料量; kB_wrtn/s:每秒向裝置(drive expressed)寫入的資料量; kB_read:讀取的總資料量; kB_wrtn:寫入的總數量資料量;這些機關都為Kilobytes。

-x 參數

iostat還有一個比較常用的選項-x,該選項将用于顯示和io相關的擴充資料。

iostat -d -x -k 1 10      
linux wa%過高,iostat檢視io狀況
rrqm/s:每秒這個裝置相關的讀取請求有多少被Merge了(當系統調用需要讀取資料的時候,VFS将請求發到各個FS,如果FS發現不同的讀取請求讀取的是相同Block的資料,
FS會将這個請求合并Merge);
wrqm/s:每秒這個裝置相關的寫入請求有多少被Merge了。

rsec/s:每秒讀取的扇區數;
wsec/:每秒寫入的扇區數。
rKB/s:The number of read requests that were issued to the device per second;
wKB/s:The number of write requests that were issued to the device per second;
avgrq-sz 平均請求扇區的大小
avgqu-sz 是平均請求隊列的長度。毫無疑問,隊列長度越短越好。    
await:  每一個IO請求的處理的平均時間(機關是微秒毫秒)。這裡可以了解為IO的響應時間,一般地系統IO響應時間應該低于5ms,如果大于10ms就比較大了。這個時間包括了隊列時間和服務時間,也就是說,一般情況下,await大于svctm,它們的內插補點越小,則說明隊列時間越短,反之內插補點越大,隊列時間越長,說明系統出了問題。
svctm    表示平均每次裝置I/O操作的服務時間(以毫秒為機關)。如果svctm的值與await很接近,表示幾乎沒有I/O等待,磁盤性能很好,如果await的值遠高于svctm的值,則表示I/O隊列等待太長,系統上運作的應用程式将變慢。
%util: 在統計時間内所有處理IO時間,除以總共統計時間。例如,如果統計間隔1秒,該裝置有0.8秒在處理IO,而0.2秒閑置,那麼該裝置的%util = 0.8/1 = 80%,是以該參數暗示了裝置的繁忙程度,一般地,如果該參數是100%表示裝置已經接近滿負荷運作了,(當然如果是多磁盤,即使%util是100%,因為磁盤的并發能力,是以磁盤使用未必就到了瓶頸)。      
iostat -d -k 1 10         #檢視TPS和吞吐量資訊(磁盤讀寫速度機關為KB)
iostat -d -m 2            #檢視TPS和吞吐量資訊(磁盤讀寫速度機關為MB)
iostat -d -x -k 1 10      #檢視裝置使用率(%util)、響應時間(await) iostat -c 1 10 #檢視cpu狀态      

執行個體分析

iostat -d -k 1 | grep vda
Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda10            60.72        18.95        71.53  395637647 1493241908
sda10           299.02      4266.67       129.41       4352        132
sda10           483.84      4589.90      4117.17       4544       4076
sda10           218.00      3360.00       100.00       3360        100
sda10           546.00      8784.00       124.00       8784        124
sda10           827.00     13232.00       136.00      13232        136      

上面看到,磁盤每秒傳輸次數平均約400;每秒磁盤讀取約5MB,寫入約1MB。

iostat -d -x -k 1
Device:    rrqm/s wrqm/s   r/s   w/s  rsec/s  wsec/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util
sda          1.56  28.31  7.84 31.50   43.65    3.16    21.82     1.58     1.19     0.03    0.80   2.61  10.29
sda          1.98  24.75 419.80  6.93 13465.35  253.47  6732.67   126.73    32.15     2.00    4.70   2.00  85.25
sda          3.06  41.84 444.90 54.08 14204.08 2048.98  7102.04  1024.49    32.57     2.10    4.21   1.85  92.24      

可以看到磁盤的平均響應時間<5ms,磁盤使用率>80。磁盤響應正常,但是已經很繁忙了

await:  每一個IO請求的處理的平均時間(機關是微秒毫秒)。這裡可以了解為IO的響應時間,一般地系統IO響應時間應該低于5ms,如果大于10ms就比較大了      
svctm    表示平均每次裝置I/O操作的服務時間(以毫秒為機關)。如果svctm的值與await很接近,表示幾乎沒有I/O等待,磁盤性能很好,
如果await的值遠高于svctm的值,則表示I/O隊列等待太長,  系統上運作的應用程式将變慢。      
%util: 在統計時間内所有處理IO時間,除以總共統計時間是以該參數暗示了裝置的繁忙程度,一般地,如果該參數是100%表示裝置已經接近滿負荷運作了      

繼續閱讀