保护apache不被搜索引擎爬虫拖垮

[ 2012-10-11 更新 ] 服务器又死过几次了,事实证明这招不是万能的。还需要继续深入研究。

搜索引擎爬虫偶尔会把服务器整个拖死(在此问候soso和baidu)。又不能直接屏蔽。天朝的蜘蛛经常不遵守robots.txt,还是得从apache直接控制一下。

1. 使用mod_limitipconn限制Apache的并发连接数。
网上大家传抄的那篇文章是针对apache 1.x的。针对apache 2,应该用mod_limitipconn-0.24.tar.bz

下载:http://dominia.org/djao/limit/mod_limitipconn-0.24.tar.bz2
安装说明:http://dominia.org/djao/limitipconn2-README
官网:http://dominia.org/djao/limitipconn2.html

2. 用mod_bw (mod_bandwidth) 控制带宽

官网:http://ivn.cl/2010/01/06/downloads-for-bandwidth-mod/#bandwidth
官方说明:http://legacy.ivn.cl/files/txt/mod_bw-0.92.txt
中文说明:http://www.discuz.net/thread-628231-1-1.html (可能有点过时,中文搜出来的都是这篇,至少是07年写的)

其他类似模块,直接这里搜吧。https://modules.apache.org/search.php

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Time limit is exhausted. Please reload CAPTCHA.