eygle.com   eygle.com
eygle.com  
 

« 乘风破浪出玉门 瀚海狂沙望蜃楼 | Blog首页 | 参加Oracle举行的DBA圆桌会议活动 »

DBA警示录:Messages信息应当认真检查

作者:eygle |【转载时请以超链接形式标明文章和作者信息及本声明
链接:

前几天出差兰州,在客户现场检查数据库的运行状况,首先查看了一下Linux系统的Message信息,结果就发现了错误提示,提示信息大致如下:

attempt to access beyond end of device

而且这个错误已经连续出现了很久,这类错误一般意味着硬件存在问题,导致了逻辑读写错误,最终可能会导致数据损失。

发现这个问题很简单,通过dmesg命令查看输出,或者查看/var/log/messages*文件就可以发现可能存在的问题。
可是往往很多用户忽视了系统状况的检查。

当时这个系统第二天出现严重故障,存储Down机,数据库损失了数据文件,业务遭受了影响。

这个案例给我们的教训是:系统状态应当认真检查,任何小处都不能忽视

今早以前公司的一个系统出现了点问题,message信息中同样记录了故障原因:

socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.5010] socal1: port 1: Fibre Channel is OFFLINE
scsi: [ID 243001 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):
Offline Timeout
scsi: [ID 243001 kern.info] /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):
target 0x1 al_pa 0xe8 lun 0 offlined
scsi: [ID 107833 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0/ssd@w50020f2300007f86,0 (ssd0):
ssdrestart transport failed (fffffffe)
socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.6010] socal1: port 1: Fibre Channel Loop is ONLINE
socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.5010] socal1: port 1: Fibre Channel is OFFLINE
socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.6010] socal1: port 1: Fibre Channel Loop is ONLINE

错误提示显示光纤通道出现问题,这一问题在数据库的体现就是数据库实例Crash掉了:

Wed Aug 27 04:21:29 2008
KCF: write/open error block=0xe13b online=1
file=68 /u02/oracle8/oradata/hysms02/SMS_STATUS2.dbf
error=27072 txt: 'SVR4 Error: 5: I/O error
Additional information: 57659'
Wed Aug 27 04:21:29 2008
Instance terminated by LGWR, pid = 352

系统的message信息是辅助我们进行数据库诊断的一个重要手段,当然防患功能是更为重要的,防患永远胜于救灾

-The End-


历史上的今天...
      >> 2007-08-27文章:
             投资 人生必需经历的成长
      >> 2005-08-27文章:
             升级MT到3.2正式版
------
这篇 【DBA警示录:Messages信息应当认真检查】来自 eygle.com | CSDN网摘| del.icio.us|Google订阅 | 鲜果订阅 | 抓虾订阅

By eygle on 2008-08-27 15:03 | Comments (5) | Posted to Beginner | Edit |Pageviews:

相关文章 随机文章
  • DBA警示录:props$应当成为禁忌
  • 恩墨科技为中国国际电子商务中心提供服务
  • Oracle的to_date转换可能导致的错误SQL结果
  • 使用DATAPUMP导致ORA-00600 17020错误
  • IBM AIX Read-only file system案例一则
  • 阵列增加硬盘导致IO错误一例
    Oracle9i新特点-判断是否使用了spfile
    大庆油田、王进喜、铁人精神 - 大庆归来记
    IT168《循序渐进Oracle》技术交流会
    Oracle的前尘旧版
    搜索本站:

    留言 (5)

    错,防患了还要我们这样的技术人员干什么?呵呵!

    Posted by: mcseman at August 27, 2008 9:50 PM

    技术人员去防患啊,难不成要客户去防患啊~~~

    Posted by: Fox at August 28, 2008 9:38 AM

    唉,怎么提示推广也是没有用的,Oracle的用户太多了。

    Posted by: eygle at August 28, 2008 10:41 PM

    谢谢,又积累了点知识。

    Posted by: hzip at September 3, 2008 11:11 AM

    检查其实不难,难的是坚持。

    Posted by: eggwhite at June 14, 2009 9:42 PM

    发表留言:



    Remember Me?
    (输入验证码后方可评论,谢谢支持)



    CopyRight © 2004 eygle.com, All rights reserved.