eygle.com   eygle.com
eygle.com  
 

« 新朋旧友会京师-11.1聚会小记 | Blog首页 | 上传了几款推荐的工具软件 »

磁盘IO错误 导致数据库故障一则

作者:eygle |【转载时请以超链接形式标明文章和作者信息及本声明
链接:

本周一刚刚说过最近硬件故障频繁,昨天又有一个数据库出现问题。

同样是硬件故障,存放数据库软件及数据文件的磁盘出现问题,导致数据库Down机。
登陆数据库服务器检查可以发现:

$ df -k
Filesystem kbytes used avail capacity Mounted on
/dev/dsk/c0t10d0s0 494235 95149 349663 22% /
/dev/dsk/c0t10d0s6 4384710 2160661 2180202 50% /usr
/proc 0 0 0 0% /proc
mnttab 0 0 0 0% /etc/mnttab
fd 0 0 0 0% /dev/fd
/dev/dsk/c0t10d0s1 1018191 586987 370113 62% /var
swap 3703192 96 3703096 1% /var/run
swap 4133440 430344 3703096 11% /tmp
/dev/dsk/c4t1d0s0 120514012 100868307 18440565 85% /data1
/dev/dsk/c0t10d0s5 8261393 2365474 5813306 29% /opt
/dev/dsk/c0t11d0s2 17348866 17229 17158149 1% /backup
/dev/dsk/c0t10d0s4 586515 21157 506707 5% /export/home
$ cd /data1
$ ls
.: I/O error

数据库Mount点data1已经不可以访问,I/O error的提示一般意味着磁盘出现问题。

这时我们可以通过一个系统命令dmesg来进行系统信息察看。
dmesg - collect system diagnostic messages to form error log

dmesg主要发现如下错误:

$ dmesg

Nov 1 23:58:10 stat socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.5010] socal1: port 1: Fibre Channel is OFFLINE
Nov 1 23:58:56 stat scsi: [ID 243001 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):
Nov 1 23:58:56 stat Offline Timeout
Nov 1 23:58:56 stat scsi: [ID 243001 kern.info] /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):
Nov 1 23:58:56 stat target 0x1 al_pa 0xe8 lun 0 offlined
Nov 1 23:58:56 stat scsi: [ID 107833 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0/ssd@w50020f2300009321,0 (ssd0):
Nov 1 23:58:56 stat SCSI transport failed: reason 'reset': retrying command
Nov 1 23:58:56 stat scsi: [ID 107833 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0/ssd@w50020f2300009321,0 (ssd0):
Nov 1 23:58:56 stat transport rejected fatal error
Nov 1 23:58:56 stat ufs: [ID 702911 kern.warning] WARNING: Error writing master during ufs log roll
Nov 1 23:58:56 stat ufs: [ID 127457 kern.warning] WARNING: ufs log for /data1 changed state to Error
Nov 1 23:58:56 stat ufs: [ID 616219 kern.warning] WARNING: Please umount(1M) /data1 and run fsck(1M)

至此我们已经可以看到这是IO通道出现问题,最后导致IO操作失败。

这已经不是数据库层面的问题,我们通过重新启动主机及阵列,进行磁盘检查后,系统恢复正常。
还算幸运!

-The End-


历史上的今天...
      >> 2009-11-03文章:
      >> 2008-11-03文章:
             《深入解析Oracle》的出版进度
      >> 2007-11-03文章:
      >> 2004-11-03文章:
             两只蝴蝶
------
这篇 【磁盘IO错误 导致数据库故障一则】来自 eygle.com | CSDN网摘| del.icio.us|Google订阅 | 鲜果订阅 | 抓虾订阅

By eygle on 2006-11-03 16:13 | Comments (7) | Posted to Case | Edit |

相关文章 随机文章
  • 使用ora_rowscn识别误操作数据时间点
  • 断电故障导致 ASM DiskGroup 故障及恢复案例
  • Oracle Database 11g回滚段命名的变化
  • ORA-600 kcbgtcr_13 未解决之问题记录
  • 圣诞超级复杂困难之Oracle数据库大恢复
  • 重新安装Lilina Rss聚合器
    Google上的Oracle Internal新闻组
    微软老矣 尚能变否?
    《Oracle果壳》-这个名字如何?
    增加了一个"数据库管理员站点导航"页面
    搜索本站:

    留言 (7)

    反对还算幸运!!!

    Posted by: sudan at November 3, 2006 6:11 PM

    不怕,还有Raid5+Hotspare,没事的。

    Posted by: eygle at November 4, 2006 11:19 AM

    同时坏两块盘的话就挂了

    Posted by: sunchao at December 19, 2007 2:40 PM

    你们光找到问题了,也不说怎么解决啊!我们能在你的网页上留言是觉得你的游戏还不错,也给予了你们很大的信心,希望你们能尽快解决这个问题并在公告上也出解决办法,否则,最后的结果我不说你们也能想的到了!!!

    Posted by: ganggi at January 21, 2008 11:15 PM

    硬盘故障,你尝试重新挂接硬盘,如果没问题是幸运的;否则就只有更换硬盘了。

    btw:你的留言我看不懂。

    Posted by: eygle at January 21, 2008 11:31 PM

    怎么重新挂接硬盘啊,给我说说啊, 我的电脑买了才几个月怎么可能是我硬盘的事呢?

    Posted by: gangzi at January 22, 2008 10:36 AM

    什么电脑?别告诉我是台式机。

    Posted by: eygle at January 22, 2008 11:43 AM

    发表留言:



    Remember Me?
    (输入验证码后方可评论,谢谢支持)



    CopyRight © 2004~2010 eygle.com, All rights reserved.