eygle.com   eygle.com
eygle.com eygle
eygle.com  
 

« Oracle Patch Set Note And Bug List 参考 | Blog首页 | 推荐电影《Juno》-朱诺 »

DBA警世录:威胁来自数据库之外
modb.pro

记得以前我曾经写过一篇《年关临近 谨防数据库事故》,那的确是有感而发。
根据统计我们发现,每逢节假日前后,都是数据库事故多发期。

而其实90%以上的数据库故障,威胁来自数据库之外。
列举一下最近的几次数据库事故及原因,警示一下这些来自数据库之外的威胁:
1.4月25日淘宝网的数据库故障
淘宝网的这次故障是由于IDC停电事故导致的,断电导致所有设备失效。这样即使考虑向备用数据库(Standby)切换,也不得不面对损失数据的麻烦。

2.5月2日前公司数据库故障
放假期间,前公司的EMC存储出现故障,EMC CX500的一个控制器损坏,导致一个数据库实例Crash。
这是存储的故障,最终数据库要直接面对服务中断

3.5月5日客户数据库故障
今天一大早收到客户电话,存储设备出现故障,导致数据丢失,需要进行恢复。
到达客户现场才了解到IBM DS4700,在增加新的磁盘,在新磁盘上划分RAID磁盘组时,莫名其妙的,生产卷的数据全部消失。
而且类似的故障并不是第一次出现。用户对DS4700彻底失去了信心。

由于存在有效备份,数据可以及时恢复,但是还是损失了Online Redo中的数据。
这次故障是存储的问题导致的

只想说明两点:
1.节假日前后一定要注意数据库安全
2.密切关注数据库周边环境

DBA这份工作有时候并不简单。

-The End-



历史上的今天...
    >> 2009-05-05文章:

By eygle on 2008-05-05 21:49 | Comments (12) | Beginner | Case | 1897 |

12 Comments

DBA不就是把脑袋挂在裤腰带上干活吗
随时都有威胁呀

原来David的脑袋是在腰部以下的....

传说中的九头虫,有着DBA

那是David撅着屁股干活的时候:)不容易呀!

那真危险,会脑充血的呢

CX500不是双控制器吗?一个SP挂掉怎么会导致数据库挂掉?

理论上不会,不过很多实际情况是复杂了,会出现很多异常!

我前一阵emc的一个控制器也坏了,不过幸运没影响,最近连着坏了2块盘,数据库就挂了,我这里还是双阵列用sf镜像的,镜像软件在关键时刻也废了,没起到作用。

我前一阵emc的一个控制器也坏了,不过幸运没影响,最近连着坏了2块盘,数据库就挂了,我这里还是双阵列用sf镜像的,镜像软件在关键时刻也废了,没起到作用。

现在存储厂商很喜好鼓吹双控加上raid5+1有多安全,关键时刻往往就是硬件出问题.
不过我的五一节过的很轻松,五一前迁移的几个数据库运行稳定.

我前一阵emc的一个控制器也坏了,不过幸运没影响,最近连着坏了2块盘,数据库就挂了,我这里还是双阵列用sf镜像的,镜像软件在关键时刻也废了,没起到作用。

其实存储也是单点故障,要想安全,还是要上双存储,或者就做异地容灾。

我更郁闷,在aix上配置了DNS解析服务器:
p5b1@/etc#cat resolv.conf
nameserver 172.16.0.21
nameserver 172.16.0.22

结果有一天.21/.22服务器停机了,结果oracle 10g起不来了,报lmd0 timeout, eygle有碰到过这样的问题么?为什么这个都影响oracle起不来啊?配了这个Oracle就那么依赖他么?

2个DNS服务器都Down了?这可用性也太低了。

最好不要用DNS做解析,否则很容易出问题,10.2.0.3之前,VIP等资源对于名称解析的依赖性很强,容易出问题。


CopyRight © 2004~2020 云和恩墨,成就未来!, All rights reserved.
数据恢复·紧急救援·性能优化 云和恩墨 24x7 热线电话:400-600-8755 业务咨询:010-59007017-7040 or 7037 业务合作: marketing@enmotech.com