有着一千七百多万个url的sitemap文件
1,一千七百多万个URL
最近比较忙。花了几天时间更新了中文Entrez序列查询工具。不过今天又发现了一个问题,打算这两天搞定。
恩,最近大家生成一个有着一千七百多万个网址的sitemap文件。
一千七百多万个网址,就有一千七百多万个页面。不可思议,的确有点多。
2,sitemap协议
最近也认真研究了sitemap协议。推荐你也去看看sitemaps.org。
您可以提供多个 Sitemap 文件,但每个 Sitemap 文件包含的网址不得超过 50,000 个,并且文件不得超过 10MB(10,485,760 字节)。如果您愿意,可以使用 gzip 压缩 Sitemap 文件,以减少带宽要求;但是解压缩后的 Sitemap 文件不得超过 10MB。如果要列出 50,000 个以上的网址,您需要创建多个 Sitemap 文件。
也就是说,一千七百多万个网址,由于每个 Sitemap 文件包含的网址不得超过 50,000 个,需要生成400个左右的sitemap文件。按照sitemap协议里提到的,需要一个Sitemap的索引文件。
3,sitemap的一般格式
至于详细的用法,当然到sitemaps.org了。
Sitemap:
<?xml version='1.0' encoding='UTF-8'?> <urlset> <url> ... </url> </urlset>
Sitemap 索引文件:
<?xml version='1.0' encoding='UTF-8'?> <sitemapindex> <sitemap> ... </sitemap> </sitemapindex>
4,用Perl写个脚本自动生成Sitemap文件
这种大工程,肯定不可能是自己手工一个个的来了。那估计是要累死。因为URL也有点特殊性。所以也用不到网上提供的其它工具,所以自己写个Perl脚本是挺不错的选择。
今天已经把这个脚本完成得差不多。目前在测试阶段。
5,向Google提交Sitemap文件
最后,如果上面的完成了。那当然就是向Google提交生成的Sitemap文件,包含有一千七百多成个页面。当然了,这个Sitemap文件文件不一定会提交的。正在考虑。嘿~
说了半天,你可能还不知道这些URL是关于什么内容的。呵,讲不清。自已移步去看,中文Entrez序列查询工具。不明白的话我也难以解释啊。
有点相关的文章
- 万恶的Google,Adsense访问不了! (0.573)
- 收到Google的第一个100刀 (0.573)
- 搜索name在Google第三页 (0.573)
- 搜索.name域名在百度第一页 (0.573)
- 收到《Perl语言编程(第三版)》 (0.530)
- Win8无法用ctrl+shift调出英文输入法的解决办法 (RANDOM - 0.500)
像你做的百度的sitemap也可以在一个网站里使用两个吗? 我用了两个WP程序,然后分别建立了它们的sitemap, 请问这样对收录有影响吗?