eygle.com   eygle.com
eygle.com  
 

« August 21, 2008 | Blog首页 | August 28, 2008 »



August 27, 2008

DBA警示录:Messages信息应当认真检查

作者:eygle

出处:http://blog.eygle.com

前几天出差兰州,在客户现场检查数据库的运行状况,首先查看了一下Linux系统的Message信息,结果就发现了错误提示,提示信息大致如下:

attempt to access beyond end of device

而且这个错误已经连续出现了很久,这类错误一般意味着硬件存在问题,导致了逻辑读写错误,最终可能会导致数据损失。

发现这个问题很简单,通过dmesg命令查看输出,或者查看/var/log/messages*文件就可以发现可能存在的问题。
可是往往很多用户忽视了系统状况的检查。

当时这个系统第二天出现严重故障,存储Down机,数据库损失了数据文件,业务遭受了影响。

这个案例给我们的教训是:系统状态应当认真检查,任何小处都不能忽视

今早以前公司的一个系统出现了点问题,message信息中同样记录了故障原因:

socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.5010] socal1: port 1: Fibre Channel is OFFLINE
scsi: [ID 243001 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):
Offline Timeout
scsi: [ID 243001 kern.info] /sbus@3,0/SUNW,socal@0,0/sf@1,0 (sf3):
target 0x1 al_pa 0xe8 lun 0 offlined
scsi: [ID 107833 kern.warning] WARNING: /sbus@3,0/SUNW,socal@0,0/sf@1,0/ssd@w50020f2300007f86,0 (ssd0):
ssdrestart transport failed (fffffffe)
socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.6010] socal1: port 1: Fibre Channel Loop is ONLINE
socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.5010] socal1: port 1: Fibre Channel is OFFLINE
socal: [ID 403145 kern.info] ID[SUNWssa.socal.link.6010] socal1: port 1: Fibre Channel Loop is ONLINE

错误提示显示光纤通道出现问题,这一问题在数据库的体现就是数据库实例Crash掉了:

Wed Aug 27 04:21:29 2008
KCF: write/open error block=0xe13b online=1
file=68 /u02/oracle8/oradata/hysms02/SMS_STATUS2.dbf
error=27072 txt: 'SVR4 Error: 5: I/O error
Additional information: 57659'
Wed Aug 27 04:21:29 2008
Instance terminated by LGWR, pid = 352

系统的message信息是辅助我们进行数据库诊断的一个重要手段,当然防患功能是更为重要的,防患永远胜于救灾

-The End-

Posted by eygle at 3:03 PM | Comments (5)



CopyRight © 2004-2008 eygle.com, All rights reserved.