百度爬虫（影响百度爬虫抓取的因素之封禁）

影响百度爬虫的抓取有多种因素，笔者也是在一点一点的写，今天要说的是，封禁。

纯干货—影响百度爬虫抓取的因素之封禁

第一，robots封禁

纯干货—影响百度爬虫抓取的因素之封禁

这一方面，想必很多的seo都是很了解的，问题都不是很大，但是要提醒大家一下，比如有些公司专门负责seo的，对robots是很关注的，如果站点中一些问题或者其他的因素，seo会在robots中禁止爬虫的一些抓取，但是很有可能另一个负责人不明白情况下会觉得为什么网页不收录，所以这并不是百度的问题，而是公司的内部沟通有问题。当然这样的事还是少数，但是还是要提醒大家注意一下。

第二，UA/ip封禁

纯干货—影响百度爬虫抓取的因素之封禁

什么是UA封禁那？简单的来说就是，网站会通过user-agent发现这是百度爬虫，那么就会给爬虫返回为空或者不返回。

同样ip封禁也是一样的，是通过判断你的访问ip是百度爬虫的，那么就会返回为空或者拒绝。

一般使用UA/ip封禁的都是避免百度抓取的太多了，给服务器造成的负载，同时这种封禁也是实时生效的，不像robots还需一个时间的过程，但是这样也会出现一个问题，因为这个UA/ip封禁都是写在程序或服务器中的，如果没有做好记录的话，可能会时间长了，就会忘记了，那么问题就会出现了，就是这个站点一直都不能被收录，而如果不是一个技术性比较强的负责人，可能根本查询不到这个原因，所以还是建议大家要做好记录，以免产生后患。

第三，cdn封禁

纯干货—影响百度爬虫抓取的因素之封禁

这个在笔者上一篇文章中有说，可以查考一下“影响百度爬虫抓取的因素——服务器的连通性”

百度爬虫（影响百度爬虫抓取的因素之封禁）

信息推荐