« DMT之后SMON还需要coalesce么? | Blog首页 | DBA警世录:使用ASM应当具备充分认识 »
What's Mean "reliable message"?
作者:eygle |【转载时请务必以超链接形式标明文章原始出处和作者信息及本声明】链接:http://www.eygle.com/archives/2008/02/reliable_message.html
今天客户的一套RAC环境出现问题
双节点RAC环境中,一个节点因为锁竞争而挂起,shutdown之后无法启动。
故障出现时我正在路上,匆匆回到家中,处理故障。
解决之后查找故障原因。
检查当时的AWR信息发现Top 5 Timed Events显示如下信息:
Top 5 Timed Events Avg %Total这里最显著的事件是reliable message,这个事件Metalink的解释为:
~~~~~~~~~~~~~~~~~~ wait Call
Event Waits Time (s) (ms) Time Wait Class
------------------------------ ------------ ----------- ------ ------ ----------
reliable message 354 89 251 219.4 Other
CPU time 32 78.3
db file sequential read 2,223 12 6 30.3 User I/O
control file sequential read 29,151 8 0 20.9 System I/O
db file scattered read 36 2 62 5.5 User I/O
-------------------------------------------------------------
When you send a message using the 'KSR' intra-instance broadcast也就是说当跨实例发送消息时,发送者期望收到订阅者的回复信息,如果得不到可信回复,就会一直处于等待。等待以3秒为周期进行反复尝试,知道收到所有订阅者的回复或者被唤醒。
service, the message publisher waits on this wait-event until
all subscribers have consumed the 'reliable message' just sent.
The publisher waits on this wait-event for three seconds and
then re-tests if all subscribers have consumed the message, or
until posted.
那么在这个环境中,也就是说两个节点的通讯已经出现问题,一个节点得不到另外一个节点的回复。
这是一个可怕的故障,reliable message也是一个让人头疼的事件。
-The End-
By eygle on 2008-02-22 22:58 | Comments (10) | Posted to Advanced | Edit |Pageviews:
留言 (10)
你的意思是说, 网络通信出了问题. ?
解决问题要从网络连接着手.
Posted by: 木匠 at February 23, 2008 1:38 AM
你的意思是说, 网络通信出了问题. ?
解决问题要从网络连接着手.
Posted by: 木匠 at February 23, 2008 1:40 AM
不一定是网络问题,有可能是CRS之间的通讯有问题,也就是说可能是CRS出了问题。
Posted by: eygle at February 23, 2008 11:10 AM
是不是应当这么说呀
What's "reliable message"?
or
What does "reliable message" mean?
Posted by: 路千里 at February 23, 2008 3:19 PM
汗,达意我就满足了!
Posted by: eygle at February 24, 2008 1:20 AM
这两天正为这个头疼呢,10.2.0.3两节点集群,HPUNIX 11.23 心跳是一根交叉线直接连两个网卡,alert老提示other event占用时间警告,有时候到了100%,运行ADDM没有查到任何问题,查看awr记录就是这个reliable message ,该怎么办搞呢,一点头绪也没有
Posted by: xwqj at February 28, 2008 4:54 PM
这两天正为这个头疼呢,10.2.0.3两节点集群,HPUNIX 11.23 心跳是一根交叉线直接连两个网卡,alert老提示other event占用时间警告,有时候到了100%,运行ADDM没有查到任何问题,查看awr记录就是这个reliable message ,该怎么办搞呢,一点头绪也没有
Posted by: qq at February 28, 2008 4:58 PM
这两天正为这个头疼呢,10.2.0.3两节点集群,HPUNIX 11.23 心跳是一根交叉线直接连两个网卡,alert老提示other event占用时间警告,有时候到了100%,运行ADDM没有查到任何问题,查看awr记录就是这个reliable message ,该怎么办搞呢,一点头绪也没有,哭啊
Posted by: xwqj at February 28, 2008 5:16 PM
检查网络是否出现过异常,如流量等有没有问题?
还有CPU消耗等。
Posted by: eygle at February 29, 2008 10:10 PM
我的机器是新买的hp8640 每个节点8cpu itanium 32G内存,目前只跑了2-3G的数据,用户也就那么几十个人,28号看了以后立即把心跳换到一个交换机上去了,alert还是other event占用时间警告,只是在AWR top 5 中这个reliable message 出现的不是很多了,不过这几天忙也没太注意
TOP 5 timed Event
Event Waits Time(s) Avg Wait(ms) % Total Call Time Wait Class
CPU time 26 98.0
Streams AQ: qmn coordinator waiting for slave to start 4 24 6,034 90.4 Other
CGS wait for IPC msg 405,145 3 0 12.3 Other
gc current block busy 34 2 69 8.8 Cluster
gcs log flush sync 171 2 10 6.7 Other
后悔当初没买光纤网卡做心跳用,怎么查查这个gc的问题是不是由网络引起来的呀
不知道会不会由应用引起,因为这个公司的应用是在太差了,但我得先排出数据库的问题才好去和他们理论,郁闷了
Posted by: xwqj at March 3, 2008 2:01 PM
