« DMT之后SMON还需要coalesce么? | Blog首页 | Oracle Release Number Format含义 »
What's Mean "reliable message"?
作者:eygle | 【转载请注出处】|【云和恩墨 领先的zData数据库一体机 | zCloud PaaS云管平台 | SQM SQL审核平台 | ZDBM 数据库备份一体机】
链接:https://www.eygle.com/archives/2008/02/reliable_message.html
今天客户的一套RAC环境出现问题链接:https://www.eygle.com/archives/2008/02/reliable_message.html
双节点RAC环境中,一个节点因为锁竞争而挂起,shutdown之后无法启动。
故障出现时我正在路上,匆匆回到家中,处理故障。
解决之后查找故障原因。
检查当时的AWR信息发现Top 5 Timed Events显示如下信息:
Top 5 Timed Events Avg %Total这里最显著的事件是reliable message,这个事件Metalink的解释为:
~~~~~~~~~~~~~~~~~~ wait Call
Event Waits Time (s) (ms) Time Wait Class
------------------------------ ------------ ----------- ------ ------ ----------
reliable message 354 89 251 219.4 Other
CPU time 32 78.3
db file sequential read 2,223 12 6 30.3 User I/O
control file sequential read 29,151 8 0 20.9 System I/O
db file scattered read 36 2 62 5.5 User I/O
-------------------------------------------------------------
When you send a message using the 'KSR' intra-instance broadcast也就是说当跨实例发送消息时,发送者期望收到订阅者的回复信息,如果得不到可信回复,就会一直处于等待。等待以3秒为周期进行反复尝试,知道收到所有订阅者的回复或者被唤醒。
service, the message publisher waits on this wait-event until
all subscribers have consumed the 'reliable message' just sent.
The publisher waits on this wait-event for three seconds and
then re-tests if all subscribers have consumed the message, or
until posted.
那么在这个环境中,也就是说两个节点的通讯已经出现问题,一个节点得不到另外一个节点的回复。
这是一个可怕的故障,reliable message也是一个让人头疼的事件。
As rocx123 describe:
Althoug this is an old issue it just happened to in a test RAC. "reliable message" is really not to worry for but if some sessions are waiting and the wait time (secs) is increasing you may look at parameter aq_tm_processes: it should not be ZERO. If it is, set it to at least 2.
-The End-
历史上的今天...
>> 2012-02-22文章:
>> 2011-02-22文章:
>> 2009-02-22文章:
>> 2006-02-22文章:
>> 2005-02-22文章:
By eygle on 2008-02-22 22:58 | Comments (13) | Advanced | 1797 |
你的意思是说, 网络通信出了问题. ?
解决问题要从网络连接着手.
你的意思是说, 网络通信出了问题. ?
解决问题要从网络连接着手.
不一定是网络问题,有可能是CRS之间的通讯有问题,也就是说可能是CRS出了问题。
是不是应当这么说呀
What's "reliable message"?
or
What does "reliable message" mean?
汗,达意我就满足了!
这两天正为这个头疼呢,10.2.0.3两节点集群,HPUNIX 11.23 心跳是一根交叉线直接连两个网卡,alert老提示other event占用时间警告,有时候到了100%,运行ADDM没有查到任何问题,查看awr记录就是这个reliable message ,该怎么办搞呢,一点头绪也没有
这两天正为这个头疼呢,10.2.0.3两节点集群,HPUNIX 11.23 心跳是一根交叉线直接连两个网卡,alert老提示other event占用时间警告,有时候到了100%,运行ADDM没有查到任何问题,查看awr记录就是这个reliable message ,该怎么办搞呢,一点头绪也没有
这两天正为这个头疼呢,10.2.0.3两节点集群,HPUNIX 11.23 心跳是一根交叉线直接连两个网卡,alert老提示other event占用时间警告,有时候到了100%,运行ADDM没有查到任何问题,查看awr记录就是这个reliable message ,该怎么办搞呢,一点头绪也没有,哭啊
检查网络是否出现过异常,如流量等有没有问题?
还有CPU消耗等。
我的机器是新买的hp8640 每个节点8cpu itanium 32G内存,目前只跑了2-3G的数据,用户也就那么几十个人,28号看了以后立即把心跳换到一个交换机上去了,alert还是other event占用时间警告,只是在AWR top 5 中这个reliable message 出现的不是很多了,不过这几天忙也没太注意
TOP 5 timed Event
Event Waits Time(s) Avg Wait(ms) % Total Call Time Wait Class
CPU time 26 98.0
Streams AQ: qmn coordinator waiting for slave to start 4 24 6,034 90.4 Other
CGS wait for IPC msg 405,145 3 0 12.3 Other
gc current block busy 34 2 69 8.8 Cluster
gcs log flush sync 171 2 10 6.7 Other
后悔当初没买光纤网卡做心跳用,怎么查查这个gc的问题是不是由网络引起来的呀
不知道会不会由应用引起,因为这个公司的应用是在太差了,但我得先排出数据库的问题才好去和他们理论,郁闷了
盖老师,您好!
这个问题最后有解决办法吗?最近在对一个节点手工创建快照时,出现此等待事件,时间高达800多秒。
Althoug this is an old issue it just happened to in a test RAC.
"reliable message" is really not to worry for but if some sessions are waiting and the wait time (secs) is increasing you may look at parameter aq_tm_processes: it should not be ZERO. If it is, set it to at least 2.
谢谢补充。