如何实现禁止爬虫抓取网站内容?

如何实现禁止爬虫抓取网站内容?

原标题:如何实现禁止爬虫抓取网站内容?

关键字:网站,科技,爬虫 (计算机网络)

最佳回答:田伟强SEO顾问

回答字数:648字

本人从事SEO方面的工作,所以只能给SEO方面的建议。

1、robots文件写以下内容,这样就可以屏蔽遵守协议的大爬虫。

User-agent: *

Disallow: /

2、但使用上面功能后,发现可能还是会被收录,其原因是外链爬取到的。这样就把robots规则绕过去了。所以需要在单页面,head之间添加这个代码。写上以下代码后,就告诉爬虫不许抓取本页,也不许顺着本页抓取索引别的链接。

<meta name=robots content=noindex,follow />

3、但是,使用以上两个代码后,并不能让采集类爬虫抓取,这类爬虫一般情况下并不遵守规则,那我们可以服务器端设置,某个IP单位时间内访问超过多少页面,IP自动进入黑名单。这样就会把IP屏蔽了,就实现了屏蔽爬虫的抓取网站内容。

本文链接:

联系作者

回答作者:田伟强SEO顾问

0

评论0

  1. hjl4am 2023-09-26 0 回复
没有账号?注册  忘记密码?