最近网站上,被某些爬虫占用了太大的资源,导致访问不畅,网上搜了一下禁止某些爬虫的办法。
下面这些方法需要同时实施才足够稳妥。
1.在网站根目录下修改或创建 .htaccess 文件
<IfModulemod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^YisouSpider* [NC] RewriteRule ^(.*)$ - [F,L] </IfModule>2.修改 Apache2 的配置文件
$ vim /etc/apache2/sites-available/000-default.conf禁止某些 User - Agent 的访问
<Directory "/var/www/wordpress"> SetEnvIfNoCaseUser-Agent ".*(YisouSpider)" denySpider Orderallow,deny Allowfromall denyfromenv = denySpider </Directory>3.网站根目录下面增加 robot .txt ,禁止爬虫
#一搜的爬虫访问过于频繁 User-agent:YisouSpider Disallow:/ 参考链接服务器反爬虫攻略:Apache/Nginx/php禁止某些User Agent抓取网站