百度爬虫(影响百度爬虫抓取的因素之封禁)

影响百度爬虫的抓取有多种因素,笔者也是在一点一点的写,今天要说的是,封禁。

纯干货—影响百度爬虫抓取的因素之封禁

第一,robots封禁

纯干货—影响百度爬虫抓取的因素之封禁

这一方面,想必很多的seo都是很了解的,问题都不是很大,但是要提醒大家一下,比如有些公司专门负责seo的,对robots是很关注的,如果站点中一些问题或者其他的因素,seo会在robots中禁止爬虫的一些抓取,但是很有可能另一个负责人不明白情况下会觉得为什么网页不收录,所以这并不是百度的问题,而是公司的内部沟通有问题。当然这样的事还是少数,但是还是要提醒大家注意一下。

第二,UA/ip封禁

纯干货—影响百度爬虫抓取的因素之封禁

什么是UA封禁那?简单的来说就是,网站会通过user-agent发现这是百度爬虫,那么就会给爬虫返回为空或者不返回。

同样ip封禁也是一样的,是通过判断你的访问ip是百度爬虫的,那么就会返回为空或者拒绝。

一般使用UA/ip封禁的都是避免百度抓取的太多了,给服务器造成的负载,同时这种封禁也是实时生效的,不像robots还需一个时间的过程,但是这样也会出现一个问题,因为这个UA/ip封禁都是写在程序或服务器中的,如果没有做好记录的话,可能会时间长了,就会忘记了,那么问题就会出现了,就是这个站点一直都不能被收录,而如果不是一个技术性比较强的负责人,可能根本查询不到这个原因,所以还是建议大家要做好记录,以免产生后患。

第三,cdn封禁

纯干货—影响百度爬虫抓取的因素之封禁

这个在笔者上一篇文章中有说,可以查考一下“影响百度爬虫抓取的因素——服务器的连通性”