eygle.com   eygle.com
eygle.com eygle
eygle.com  
 

« 新朋旧友会京师-11.1聚会小记 | Blog首页 | 上传了几款推荐的工具软件 »

磁盘IO错误 导致数据库故障一则
modb.pro

本周一刚刚说过最近硬件故障频繁,昨天又有一个数据库出现问题。

同样是硬件故障,存放数据库软件及数据文件的磁盘出现问题,导致数据库Down机。
登陆数据库服务器检查可以发现:

$ df -k
Filesystem kbytes used avail capacity Mounted on
/dev/dsk/c0t10d0s0 494235 95149 349663 22% /
/dev/dsk/c0t10d0s6 4384710 2160661 2180202 50% /usr
/proc 0 0 0 0% /proc
mnttab 0 0 0 0% /etc/mnttab
fd 0 0 0 0% /dev/fd
/dev/dsk/c0t10d0s1 1018191 586987 370113 62% /var
swap 3703192 96 3703096 1% /var/run
swap 4133440 430344 3703096 11% /tmp
/dev/dsk/c4t1d0s0 120514012 100868307 18440565 85% /data1
/dev/dsk/c0t10d0s5 8261393 2365474 5813306 29% /opt
/dev/dsk/c0t11d0s2 17348866 17229 17158149 1% /backup
/dev/dsk/c0t10d0s4 586515 21157 506707 5% /export/home
$ cd /data1
$ ls
.: I/O error

数据库Mount点data1已经不可以访问,I/O error的提示一般意味着磁盘出现问题。

这时我们可以通过一个系统命令dmesg来进行系统信息察看。
dmesg - collect system diagnostic messages to form error log

dmesg主要发现如下错误:

$ dmesg

Nov 1 23:58:10 stat socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.5010] socal1: port 1: Fibre Channel is OFFLINE
Nov 1 23:58:56 stat scsi: [ID 243001 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):
Nov 1 23:58:56 stat Offline Timeout
Nov 1 23:58:56 stat scsi: [ID 243001 kern.info] /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):
Nov 1 23:58:56 stat target 0x1 al_pa 0xe8 lun 0 offlined
Nov 1 23:58:56 stat scsi: [ID 107833 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0/ssd@w50020f2300009321,0 (ssd0):
Nov 1 23:58:56 stat SCSI transport failed: reason 'reset': retrying command
Nov 1 23:58:56 stat scsi: [ID 107833 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0/ssd@w50020f2300009321,0 (ssd0):
Nov 1 23:58:56 stat transport rejected fatal error
Nov 1 23:58:56 stat ufs: [ID 702911 kern.warning] WARNING: Error writing master during ufs log roll
Nov 1 23:58:56 stat ufs: [ID 127457 kern.warning] WARNING: ufs log for /data1 changed state to Error
Nov 1 23:58:56 stat ufs: [ID 616219 kern.warning] WARNING: Please umount(1M) /data1 and run fsck(1M)

至此我们已经可以看到这是IO通道出现问题,最后导致IO操作失败。

这已经不是数据库层面的问题,我们通过重新启动主机及阵列,进行磁盘检查后,系统恢复正常。
还算幸运!

-The End-


历史上的今天...
    >> 2015-11-03文章:
    >> 2011-11-03文章:
    >> 2009-11-03文章:
    >> 2008-11-03文章:
    >> 2007-11-03文章:
    >> 2004-11-03文章:
           两只蝴蝶

By eygle on 2006-11-03 16:13 | Comments (7) | Case | 956 |

7 Comments

反对还算幸运!!!

不怕,还有Raid5+Hotspare,没事的。

同时坏两块盘的话就挂了

你们光找到问题了,也不说怎么解决啊!我们能在你的网页上留言是觉得你的游戏还不错,也给予了你们很大的信心,希望你们能尽快解决这个问题并在公告上也出解决办法,否则,最后的结果我不说你们也能想的到了!!!

硬盘故障,你尝试重新挂接硬盘,如果没问题是幸运的;否则就只有更换硬盘了。

btw:你的留言我看不懂。

怎么重新挂接硬盘啊,给我说说啊, 我的电脑买了才几个月怎么可能是我硬盘的事呢?

什么电脑?别告诉我是台式机。


CopyRight © 2004~2020 云和恩墨,成就未来!, All rights reserved.
数据恢复·紧急救援·性能优化 云和恩墨 24x7 热线电话:400-600-8755 业务咨询:010-59007017-7040 or 7037 业务合作: marketing@enmotech.com