March 29, 2007
光纤存储、SUN遭遇莫名故障
作者:eygle
出处:http://blog.eygle.com
前几天,一台连接EMC存储的数据库主机挂了,给出的错误信息如下:
scsi: [ID 107833 kern.notice] Requested Block: 0 Error Block: 0
scsi: [ID 107833 kern.notice] Vendor: DGC Serial Number: 2E0000F8FACL
scsi: [ID 107833 kern.notice] Sense Key: Unit Attention
scsi: [ID 107833 kern.notice] ASC: 0x2a (), ASCQ: 0x80, FRU: 0x0
scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@1/sd@1,18 (sd299):
Error for Command: read Error Level: Retryable
由于有HA起作用,数据库切换到其他服务器运行。
从错误信息看起来,是存储的读写出现了问题。
进一步检查,发现光纤交换机出了点故障:
Error 63
--------
0x101c9810 (tThad): Mar 27 05:23:29
WARNING FW-STATUS_SWITCH, 3, Switch status changed from DOWN/FAILED to HEALTHY/OK
目前的判断是,可能是光纤交换机的短时故障导致了光纤通道中断,结果导致主机直接Down机。
可是重起之后异常出现了,运行在这个主机上的数据库奇慢无比,即使切换到其他主机情况也没有好转。
EMC存储上没有任何错误,目前怀疑相关LUN的数据存在问题,导致I/O缓慢。
有谁遇到过类似问题么?
-The End-
Posted by eygle at 3:20 PM | Comments (13)
