如何才能防止拉网页?

« Oracle7.3.4 Checkpoint行为研究 | Blog首页 | 使用Index提示强制使用索引 »

今天网站[www.eygle.com]的服务器又经历了一次考验. 上午发现CPU idle 变为0，主机开始满负荷运转，前端访问巨慢，赶紧登陆检查。

在apache日志中发现大量如下日志：

grep "Web Downloader/6.3" access_log.20060221 |awk '{print $1 " " $12$13}'
61.145.165.xx "WebDownloader/6.3"
61.145.165.xx "WebDownloader/6.3"
61.145.165.xx "WebDownloader/6.3"
61.145.165.xx "WebDownloader/6.3"
61.145.165.xx "WebDownloader/6.3"
61.145.165.xx "WebDownloader/6.3"

原来是有人在使用WebDownloader工具拉我的网站。

赶快封了该地址，流量和负载一下就降了下来：

iptables -A INPUT -s 61.145.165.xx -j REJECT

可是怎样才能防止这种拉网页的行为呢?

谁有好办法请指点一下：）

也请访问我网站的朋友手下留情，不要这样来拉网页，我的服务器很脆弱的。

历史上的今天...
>> 2011-02-21文章:

Oracle Linux 6 使用 Ext4的性能体验

DBA手记:OEM罪几何？-空间监控的性能问题

>> 2008-02-21文章:

IBM ThinkPad-如何激活和关闭数字小键盘

>> 2005-02-21文章:

自己动手,丰衣足食

By eygle on 2006-02-21 16:25 | Comments (6) | Web | 687 |

6 Comments

qqdao | February 21, 2006 5:34 PM

可以通过封掉useragent来拒绝某些特定的网页爬虫。
apache我不熟悉，不太清楚具体命令。参阅
http://phorum.study-area.org/printview.php?t=31688&start=0

柔 | February 21, 2006 6:18 PM

今天我把你的网站推荐给某人了

eygle | February 21, 2006 9:10 PM

谢谢qqdao,俺试试看.

glumtail | February 22, 2006 12:29 AM

eygle，你不如把文章整理成册让人下载好了，许多文章确实可以重复阅读。Apache可以限制并发连接数。

eygle | February 22, 2006 1:10 PM

时间才是主要的问题啊.

Apache限制并发没用的,拖网页会把数据库耗死.

zhongguosou.com | February 22, 2006 8:23 PM

一般拉网页是通过FTP软件等，限制这些软件的下载就可以了。好像它们都遵守一个什么协议。可以试试。