原标题:如何实现禁止爬虫抓取网站内容?
关键字:网站,科技,爬虫 (计算机网络)
最佳回答:田伟强SEO顾问
回答字数:648字
本人从事SEO方面的工作,所以只能给SEO方面的建议。
1、robots文件写以下内容,这样就可以屏蔽遵守协议的大爬虫。
User-agent: *
Disallow: /
2、但使用上面功能后,发现可能还是会被收录,其原因是外链爬取到的。这样就把robots规则绕过去了。所以需要在单页面,head之间添加这个代码。写上以下代码后,就告诉爬虫不许抓取本页,也不许顺着本页抓取索引别的链接。
<meta name=robots content=noindex,follow />
3、但是,使用以上两个代码后,并不能让采集类爬虫抓取,这类爬虫一般情况下并不遵守规则,那我们可以服务器端设置,某个IP单位时间内访问超过多少页面,IP自动进入黑名单。这样就会把IP屏蔽了,就实现了屏蔽爬虫的抓取网站内容。
联系作者
回答作者:田伟强SEO顾问
评论0