记录百度蜘蛛强盗般地抓取


有一个网站,在分析日志的时候发现,百度蜘蛛在一天内访问超过了150万次,其中100万次左右是重复抓取其中几个静态文件。这也太疯狂了吧,这哪是在抓取收录啊,这简直就是强盗嘛。具体来看看是哪些百度蜘蛛的IP,还有看看是哪几个静态文件这么讨百度蜘蛛喜欢。

一天内共访问150万次

grep "Baiduspider" site.log|wc -l
1504957

百度蜘蛛大概有100个IP

在这150万次的访问中,大概有100个左右的IP,来看看IP段:

111.206.221.*IP段最多,将近70个IP
220.181.108.*
123.125.71.*

主要就是这3个IP段。

iconfont的文件

而在这150万次的访问中,其中有100万次是针对其中的几个静态文件,是iconfont的文件

.woff
.ttf

就是这2个后缀的文件,单个文件最多被访问36万次,总共合起来超100万次。

 

不过,当然也不能排除有人恶意伪造IP和user agent的行为。 不过这种奇葩行为,百度蜘蛛的可能性很大。

Baiduspider-render/2.0

再细查了一下,其中最主要的user agent是“Baiduspider-render/2.0”,找到了百度站长平台的一个公告:

来源:http://zhanzhang.baidu.com/wiki/990

为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的CSS、Javascript和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新UA来访问站点的上述资源。从3月24日(2017)开始,百度搜索抽取了部分优质站点进行抓取内测,可能会对站点服务器造成一定压力影响,请尽量不要对UA进行封禁,以免造成不可逆转的损失。

最新UA如下:

PC:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移动:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

 

公告的日期还是最近的,这个UA是3月24号增加的。

那么问题来了,现在CSS和JS要不要在robots.txt里面禁止百度蜘蛛的访问呢?有没有SEO大牛来解答?


《“记录百度蜘蛛强盗般地抓取”》 有 1 条评论