记录百度蜘蛛强盗般地抓取

有一个网站，在分析日志的时候发现，百度蜘蛛在一天内访问超过了150万次，其中100万次左右是重复抓取其中几个静态文件。这也太疯狂了吧，这哪是在抓取收录啊，这简直就是强盗嘛。具体来看看是哪些百度蜘蛛的IP，还有看看是哪几个静态文件这么讨百度蜘蛛喜欢。

一天内共访问150万次

grep "Baiduspider" site.log|wc -l
1504957

百度蜘蛛大概有100个IP

在这150万次的访问中，大概有100个左右的IP，来看看IP段：

111.206.221.*IP段最多，将近70个IP
220.181.108.*
123.125.71.*

主要就是这3个IP段。

iconfont的文件

而在这150万次的访问中，其中有100万次是针对其中的几个静态文件，是iconfont的文件

.woff
.ttf

就是这2个后缀的文件，单个文件最多被访问36万次，总共合起来超100万次。

不过，当然也不能排除有人恶意伪造IP和user agent的行为。不过这种奇葩行为，百度蜘蛛的可能性很大。

Baiduspider-render/2.0

再细查了一下，其中最主要的user agent是“Baiduspider-render/2.0”，找到了百度站长平台的一个公告：

来源：http://zhanzhang.baidu.com/wiki/990

为了给搜索用户更好的体验、对站点实现更好地索引和呈现，百度搜索需要访问网站的CSS、Javascript和图片信息，以便更精准地理解页面内容，实现搜索结果最优排名，百度搜索会全面启用最新UA来访问站点的上述资源。从3月24日（2017）开始，百度搜索抽取了部分优质站点进行抓取内测，可能会对站点服务器造成一定压力影响，请尽量不要对UA进行封禁，以免造成不可逆转的损失。

最新UA如下：

PC：Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移动：Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

公告的日期还是最近的，这个UA是3月24号增加的。

那么问题来了，现在CSS和JS要不要在robots.txt里面禁止百度蜘蛛的访问呢？有没有SEO大牛来解答？

柳城博客

记录百度蜘蛛强盗般地抓取

一天内共访问150万次

百度蜘蛛大概有100个IP

iconfont的文件

Baiduspider-render/2.0

《“记录百度蜘蛛强盗般地抓取”》有 1 条评论

记录百度蜘蛛强盗般地抓取

一天内共访问150万次

百度蜘蛛大概有100个IP

iconfont的文件

Baiduspider-render/2.0

《“记录百度蜘蛛强盗般地抓取”》 有 1 条评论

《“记录百度蜘蛛强盗般地抓取”》有 1 条评论