eygle.com   eygle.com
eygle.com eygle
eygle.com  
 

« Redflag Linux安装Oracle 10gR2 RAC记事 | Blog首页 | Cache-low rba 与 on-disk rba - 恢复笔记 »

Linux many lost ticks 和 NIC Copper Link Down

昨天装好的RAC,客户已经打了几个电话咨询,严重质疑RAC的稳定性。

结果是,昨天有人把网线都插拔了一遍,两台机器都挂了;
今天有台机器的网线又被扯,又断了一台。

客户质疑RAC,我只好一遍一遍解释,这个网络啊、心跳啊、VIP啊,对Oracle是灰常灰常重要的。

当然看看日志也有收获,NIC网卡Down的信息,这没什么好说的:
Feb  6 10:13:21 wg1 kernel: bnx2: eth0 NIC Copper Link is Down
Feb  6 10:57:20 wg1 kernel: input: AT Translated Set 2 keyboard on isa0060/serio0
Feb  6 10:57:29 wg1 login(pam_unix)[7424]: session opened for user root by LOGIN(uid=0)
Feb  6 10:57:29 wg1  -- root[7424]: ROOT LOGIN ON tty1
Feb  6 10:58:31 wg1 kernel: bnx2: eth0 NIC Copper Link is Up, 100 Mbps full duplex
确认当时的确是有人动了网线,否则不能排除是否网卡本身不稳定。

又发现有Lost ticks的提示信息:
kernel: warning: many lost ticks.
kernel: If your CPU support 'CPU Frequency scaling',You could ignore this warning
kernel: else your time source seems to be instable or some driver is hogging interupts
kernel: rip __do_softirq+0x4d/0xd0

关于lost ticks找到一些参考信息
在某些系统上,当首次访问一些 IDE 设备时,可能显示信息warning:many lost ticks(警告:丢失许多嘀嗒信号)。当 IDE 设备没有使用 DMA 进行数据传输时,会显示此信息,因为非 DMA 传输所用的时间比计时器嘀嗒信号间隔长很多(在此期间,处理器无法处理计时器嘀嗒信号中断)。此信息并不表示系统出现故障,也不会导致任何功能问题。如果系统运行的是带 Update 1 或更高版本(含适用于此控制器的更新驱动程序)的 Red Hat Enterprise Linux 4,则连接至 Intel ICH7 IDE控制器的设备不会遇到这种问题。但是,由于其它 IDE 设备无法使用DMA,因此该信息仍然会显示。

在基于 AMD 处理器的系统上,如果启用非一致内存存取 (Non Uniform Memory Access) 功能,则系统在高负载情况下将显示"lost ticks"(丢失嘀嗒信号)信息当运行 Red Hat Enterprise Linux 4(更新 4 之前的版本)的系统处于高负载时,屏幕将显示以下信息:
warning: many lost ticks.(警告:丢失许多嘀嗒信号。)
Your time source seems to be instable or some driver is hogging interrupts
(时间源似乎不稳定或者某些驱动程序干扰中断)
rip __do_softirq+0x4d/0xd0
当在基于 AMD 处理器的系统上使用非一致内存存取 (NUMA) 功能时,将出现此问题。要解决此问题,请将以下参数添加到内核命令行:
console=tty0 numa=off
注:确保 numa=off 为内核命令行中的最后一个选项。如果 numa=off 不是最后一个选项,
将不能识别此参数。
在 Red Hat Enterprise Linux 4 更新 4 中已解决这一问题。

(上面这一篇是DELL的文档上的解释)

您可以安心忽略 RHEL4 U4 丟失滴答計時的訊息(6483062)
在沈重的負載下,RHEL4 訊息檔案與 dmesg 記錄檔可能顯示類似下列的訊息:
Warning many lost ticks
Your time source seems to be unstable or some driver is hogginginterrupts.
此訊息是由不同 IRQ 處理常式之間的爭用所導致,但是對於系統沒有負面影響。
(上面一小段是SUN的文档上的解释)

同时注释一下HPET的全称吧:High Precision Event Timer (HPET)

另外一篇文章则为我解释了CPU Frequency scaling的含义:
CPU Frequency  scaling,这一选项允许改变CPU的主频,使CPU在低负荷或使用电池时降低主频,达到省电的目的

Enable CPUfreq debugging,是否允许调试CPU改变主频的功能,如果要调试,还需要在启动时加上参数。cpufreq.debug=
1:变频技术的内核调试
2:变频技术的驱动调试
4:变频技术的调节器调试

感谢网络,感谢网友们的分享,我要继续不断学习。

-The End-









历史上的今天...
    >> 2012-02-06文章:
    >> 2009-02-06文章:
    >> 2007-02-06文章:
           2007 我的新书写作计划
    >> 2006-02-06文章:
           一路向北
           Expert Oracle-版权,还是版权
    >> 2005-02-06文章:

By eygle on 2010-02-06 15:09 | Comments (3) | System | 2505 |

3 Comments

术业有专攻,每个人的精力都是有限的,不可能在每个方向都做成TOP,如果你公司的目标是提供TOP级的ORACLE服务,我个人觉得这种遇到问题临时GOOGLE只能算抱佛脚:) 碰到实质些的难题肯定不是办法.....

WINDOWS CLUSTER 网线断开的话,群集会死掉,微软官方不支持网卡或者网线断开的冗余,正如网络交换机不稳定就来回切换肯定会死人,估计RAC也是如此的解释,如果非要网卡冗余,只能做硬件的双网卡绑定为一个冗余,做网卡的负载均衡吧。

很多信息都是Oracle之外的知识了


CopyRight © 2004~2020 云和恩墨,成就未来!, All rights reserved.
数据恢复·紧急救援·性能优化 云和恩墨 24x7 热线电话:400-600-8755 业务咨询:010-59007017-7040 or 7037 业务合作: marketing@enmotech.com