大事务回滚导致系统故障案例一则

« 2011-恩墨科技数据库基础与性能优化培训 | Blog首页 | Oracle Linux 6发布缺省使用Ext4文件系统 »

最近遇到的一则案例，客户系统响应缓慢，IO Wait超高，系统体现在Log file sync上出现大量等待，磁盘没有错误信息。

我的第一印象就是，可能有大事务在回滚，通过如下查询立刻找到了数据库中存在的一个死事务：

SQL> select distinct KTUXECFL,count(*) from x$ktuxe group by KTUXECFL;
KTUXECFL                   COUNT(*)
------------------------ ----------
DEAD                              1
NONE                           7969

首先这个死事务是极其可以的，具体查看其信息，发现其回退的极其缓慢：

SQL> select ADDR,KTUXEUSN,KTUXESLT,KTUXESQN,KTUXESIZ
2 from x$ktuxe where KTUXECFL='DEAD';

ADDR       KTUXEUSN   KTUXESLT   KTUXESQN   KTUXESIZ
-------- ---------- ---------- ---------- ----------
B7FCBB98         37          1       4915     158026

SQL> /

ADDR       KTUXEUSN   KTUXESLT   KTUXESQN   KTUXESIZ
-------- ---------- ---------- ---------- ----------
B7FCBB98         37          1       4915     158026

SQL> select ADDR,KTUXEUSN,KTUXESLT,KTUXESQN,KTUXESIZ from x$ktuxe where KTUXECFL='DEAD';

ADDR       KTUXEUSN   KTUXESLT   KTUXESQN   KTUXESIZ
-------- ---------- ---------- ---------- ----------
B7FCBB98         37          1       4915     157966

按照这个进度，可能需要几天去回滚这个失败的事务，最后客户选择了激活备库，放弃主库来恢复生产。

最后通过AWR数据找到了这个导致大事务的SQL，其逻辑读超高，执行未能成功完成：

Stat Name	Statement Total	Per Execution	% Snap Total
Elapsed Time (ms)	12,233,407	12,233,407.37	0.42
CPU Time (ms)	274,181	274,180.53	0.20
Executions	1
Buffer Gets	46,723,423	46,723,423.00	0.99
Disk Reads	1,223,947	1,223,947.00	1.81
Parse Calls	1	1.00	0.00
Rows	0	0.00
User I/O Wait Time (ms)	11,965,756
Cluster Wait Time (ms)	0
Application Wait Time (ms)	0
Concurrency Wait Time (ms)	0
Invalidations	0
Version Count	5
Sharable Mem(KB)	87

根据执行计划，这个INSERT操作可能访问高达13M的记录，其回滚的效率可想而知，而且Oracle的并行回退效率并不高。

Execution Plan

Id	Operation	Name	Rows	Bytes	Cost (%CPU)	Time	Pstart	Pstop
0	INSERT STATEMENT				603K(100)
1	FILTER
2	PARTITION RANGE ITERATOR		1800K	111M	603K (1)	02:00:42	KEY	KEY
3	TABLE ACCESS BY LOCAL INDEX ROWID	TAB_LOG_CB2	1800K	111M	603K (1)	02:00:42	KEY	KEY
4	INDEX RANGE SCAN	IDX_CB2_DA	13M		36095 (1)	00:07:14	KEY	KEY

朋友们遇到这个问题，可以尝试将fast_start_parallel_rollback改为HIGH看是否能够有所帮助，通常情况下是没有用的。

由此可见，对于大批量的数据处理，是应当小心谨慎的。

历史上的今天...
>> 2009-02-11文章:

麻烦的广东人幸福的广东人

>> 2008-02-11文章:

遥远与安宁-2008新年记事

>> 2005-02-11文章:

关于redo copy latch的说明

By eygle on 2011-02-11 15:07 | Comments (8) | Case | 2726 |

8 Comments

木匠Charlie | February 12, 2011 5:17 AM

请我能不能通过公开的v$视图诊断呢? 比如v$transaction.

我一见到x$内存表,就发怵. :)

木匠Charlie | February 12, 2011 5:18 AM

请我 = 请问. 我同问. 通假字. 这两天[孙子兵法]看多了.

eygle | February 12, 2011 8:21 AM

v$transaction 中已经没有这个事务了，如果有的话就不叫Dead Transaction。

yding | February 12, 2011 8:39 AM

给力，记下了

zhouyf | February 12, 2011 8:59 AM

　　我们开发也有一次delete 一两千万的记录　大约4GB左右数据。然后delete 了几个小时还没有执行完，他就去kill那个进程。
　　这时我根本都没有办法知道那个回退要回退多久....
受教了，这篇!

zhouyf | February 12, 2011 9:33 AM

　我的这个系统里有4条DEAD的记录　，但是KTUXESIZ 字段的值都是0
这个是为什么　？

eygle | February 12, 2011 10:35 AM

就是已经回退完了，但是事务信息没有被最终清除，有时候这个信息会残留一段时间。

David.Guo | February 12, 2011 2:42 PM

我的印象中，可以通过修改两个内部参数加快回退效率，不过会有风险
遇到过好几次的。。。。