大周末的,接到同僚電話,說伺服器不通了,伺服器在公司機房裡,沒有遠端控制卡,說讓我去看一下,接上顯示器,發現滿螢幕的“sd 0:1:1:0 rejecting I/O to offline device”,無法遠端連接配接伺服器,我就按電源重新開機了。
重新開機後能正常使用。
把這個報錯到網上查了一下說這個sd 0:1:1:0 被踢下線了。
到系統下用cat /proc/scsi/scsi 一看是
Host: scsi0 Channel: 01 Id: 01 Lun: 00
Vendor: LSILOGIC Model: Logical Volume Rev: 3000
Type: Direct-Access ANSI SCSI revision: 02
####是sd 0:1:1:0 是raid
/usr/bin/lsiutil 檢視raid也是好的
1 volume is active, 2 physical disks are active
Volume 0 is Bus 0 Target 1, Type IM (Integrated Mirroring)
Volume Name:
Volume WWID: 00566177e1862e87
Volume State: optimal, enabled
Volume Settings: write caching disabled, auto configure
Volume draws from Hot Spare Pools: 0
Volume Size 139236 MB, 2 Members
Primary is PhysDisk 1 (Bus 0 Target 2)
Secondary is PhysDisk 0 (Bus 0 Target 8)
此時看了一下 tail -f /var/log/messages
Jan 5 12:29:00 spider58 kernel: command: Write(10): 2a 00 04 56 68 97 00 00 10 00
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=ec999440)
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832800)
Jan 5 12:29:00 spider58 kernel: sd 0:1:1:0:
Jan 5 12:29:00 spider58 kernel: command: Write(10): 2a 00 04 56 69 47 00 00 10 00
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=f7832800)
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832d00)
參考http://ilinuxkernel.com/?p=386
說這個報錯和“該資訊與硬碟是否故障無直接聯系”
再看磁盤io
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sdc 12.04 8.12 7.88 5.94 130.70 111.66 17.54 1.02 74.05 5.06 6.99
sdc1 0.05 0.00 0.01 0.00 0.12 0.00 15.08 0.00 2.70 1.85 0.00
sdc2 0.04 0.00 0.00 0.00 0.08 0.00 61.22 0.00 8.44 8.22 0.00
sdc3 0.12 2.33 0.10 1.38 4.45 29.68 22.97 0.27 179.59 18.91 2.81
sdc4 0.00 0.00 0.00 0.00 0.00 0.00 3.50 0.00 14.25 14.25 0.00
sdc5 8.74 0.17 0.66 0.08 24.09 1.55 34.38 0.05 65.53 7.46 0.56
sdc6 1.50 0.82 0.28 0.56 6.60 10.77 20.70 0.15 179.76 23.79 2.00
sdc7 0.45 1.08 0.27 1.21 3.32 18.19 14.50 0.09 59.13 15.11 2.24
sdc8 1.13 3.72 6.54 2.71 92.02 51.47 15.51 0.47 50.67 5.97 5.52
根據上面的情況也沒看出問題在哪? 還得請大牛們指點指點
參考:
Linux核心I/O系統報錯日志與硬碟故障對應關系 http://ilinuxkernel.com/?p=386