Quantcast
Channel: CodeSection,代码区,Linux操作系统:Ubuntu_Centos_Debian - CodeSec
Viewing all articles
Browse latest Browse all 11063

Ubuntu 14.04服务器Apache禁止某些User Agent抓取网站

$
0
0

最近网站上,被某些爬虫占用了太大的资源,导致访问不畅,网上搜了一下禁止某些爬虫的办法。

下面这些方法需要同时实施才足够稳妥。

1.在网站根目录下修改或创建 .htaccess 文件

<IfModulemod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^YisouSpider* [NC] RewriteRule ^(.*)$ - [F,L] </IfModule>

2.修改 Apache2 的配置文件

$ vim /etc/apache2/sites-available/000-default.conf

禁止某些 User - Agent 的访问

<Directory "/var/www/wordpress"> SetEnvIfNoCaseUser-Agent ".*(YisouSpider)" denySpider Orderallow,deny Allowfromall denyfromenv = denySpider </Directory>

3.网站根目录下面增加 robot .txt ,禁止爬虫

#一搜的爬虫访问过于频繁 User-agent:YisouSpider Disallow:/ 参考链接

服务器反爬虫攻略:Apache/Nginx/php禁止某些User Agent抓取网站


Viewing all articles
Browse latest Browse all 11063

Trending Articles