天天看點

一次伺服器故障

大周末的,接到同僚電話,說伺服器不通了,伺服器在公司機房裡,沒有遠端控制卡,說讓我去看一下,接上顯示器,發現滿螢幕的“sd 0:1:1:0 rejecting I/O to offline device”,無法遠端連接配接伺服器,我就按電源重新開機了。

重新開機後能正常使用。

把這個報錯到網上查了一下說這個sd 0:1:1:0 被踢下線了。

到系統下用cat /proc/scsi/scsi 一看是

Host: scsi0 Channel: 01 Id: 01 Lun: 00

  Vendor: LSILOGIC Model: Logical Volume   Rev: 3000

  Type:   Direct-Access                    ANSI SCSI revision: 02

####是sd 0:1:1:0 是raid

/usr/bin/lsiutil 檢視raid也是好的

1 volume is active, 2 physical disks are active

Volume 0 is Bus 0 Target 1, Type IM (Integrated Mirroring)

  Volume Name:                                  

  Volume WWID:  00566177e1862e87

  Volume State:  optimal, enabled

  Volume Settings:  write caching disabled, auto configure

  Volume draws from Hot Spare Pools:  0

  Volume Size 139236 MB, 2 Members

  Primary is PhysDisk 1 (Bus 0 Target 2)

  Secondary is PhysDisk 0 (Bus 0 Target 8)

此時看了一下 tail -f /var/log/messages

Jan  5 12:29:00 spider58 kernel:         command: Write(10): 2a 00 04 56 68 97 00 00 10 00

Jan  5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=ec999440)

Jan  5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832800)

Jan  5 12:29:00 spider58 kernel: sd 0:1:1:0: 

Jan  5 12:29:00 spider58 kernel:         command: Write(10): 2a 00 04 56 69 47 00 00 10 00

Jan  5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=f7832800)

Jan  5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832d00)

參考http://ilinuxkernel.com/?p=386

說這個報錯和“該資訊與硬碟是否故障無直接聯系”

再看磁盤io

Device:         rrqm/s   wrqm/s   r/s   w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util

sdc              12.04     8.12  7.88  5.94   130.70   111.66    17.54     1.02   74.05   5.06   6.99

sdc1              0.05     0.00  0.01  0.00     0.12     0.00    15.08     0.00    2.70   1.85   0.00

sdc2              0.04     0.00  0.00  0.00     0.08     0.00    61.22     0.00    8.44   8.22   0.00

sdc3              0.12     2.33  0.10  1.38     4.45    29.68    22.97     0.27  179.59  18.91   2.81

sdc4              0.00     0.00  0.00  0.00     0.00     0.00     3.50     0.00   14.25  14.25   0.00

sdc5              8.74     0.17  0.66  0.08    24.09     1.55    34.38     0.05   65.53   7.46   0.56

sdc6              1.50     0.82  0.28  0.56     6.60    10.77    20.70     0.15  179.76  23.79   2.00

sdc7              0.45     1.08  0.27  1.21     3.32    18.19    14.50     0.09   59.13  15.11   2.24

sdc8              1.13     3.72  6.54  2.71    92.02    51.47    15.51     0.47   50.67   5.97   5.52

根據上面的情況也沒看出問題在哪? 還得請大牛們指點指點

參考:

Linux核心I/O系統報錯日志與硬碟故障對應關系 http://ilinuxkernel.com/?p=386