记录百度蜘蛛强盗般地抓取
有一个网站,在分析日志的时候发现,百度蜘蛛在一天内访问超过了150万次,其中100万次左右是重复抓取其中几个静态文件。这也太疯狂了吧,这哪是在抓取收录啊,这简直就是强盗嘛。具体来看看是哪些百度蜘蛛的IP,还有看看是哪几个静态文件这么讨百度蜘蛛喜欢。
一天内共访问150万次
grep "Baiduspider" site.log|wc -l 1504957
百度蜘蛛大概有100个IP
在这150万次的访问中,大概有100个左右的IP,来看看IP段:
111.206.221.*IP段最多,将近70个IP 220.181.108.* 123.125.71.*
主要就是这3个IP段。
iconfont的文件
而在这150万次的访问中,其中有100万次是针对其中的几个静态文件,是iconfont的文件
.woff .ttf
就是这2个后缀的文件,单个文件最多被访问36万次,总共合起来超100万次。
不过,当然也不能排除有人恶意伪造IP和user agent的行为。 不过这种奇葩行为,百度蜘蛛的可能性很大。
Baiduspider-render/2.0
再细查了一下,其中最主要的user agent是“Baiduspider-render/2.0”,找到了百度站长平台的一个公告:
来源:http://zhanzhang.baidu.com/wiki/990
为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的CSS、Javascript和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新UA来访问站点的上述资源。从3月24日(2017)开始,百度搜索抽取了部分优质站点进行抓取内测,可能会对站点服务器造成一定压力影响,请尽量不要对UA进行封禁,以免造成不可逆转的损失。
最新UA如下:
PC:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
移动:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
公告的日期还是最近的,这个UA是3月24号增加的。
那么问题来了,现在CSS和JS要不要在robots.txt里面禁止百度蜘蛛的访问呢?有没有SEO大牛来解答?
有点相关的文章
- 判断是否冒充百度蜘蛛(Baiduspider)的方法 (1.000)
- 从苏囧处学来的 (0.500)
- 博百优总结:排名四剑客 (0.500)
- A5:站长网第四届搜索引擎优化大赛比赛结果 (0.500)
- 2011 PR值飞不起来 (0.500)
- 体验神马时代的神马搜索 (RANDOM - 0.500)
时间飞快,转眼年中就要到来,祝你天天愉快!