有着一千七百多万个url的sitemap文件

1,一千七百多万个URL

最近比较忙。花了几天时间更新了中文Entrez序列查询工具。不过今天又发现了一个问题,打算这两天搞定。

恩,最近大家生成一个有着一千七百多万个网址的sitemap文件。
一千七百多万个网址,就有一千七百多万个页面。不可思议,的确有点多。

2,sitemap协议

最近也认真研究了sitemap协议。推荐你也去看看sitemaps.org

您可以提供多个 Sitemap 文件,但每个 Sitemap 文件包含的网址不得超过 50,000 个,并且文件不得超过 10MB(10,485,760 字节)。如果您愿意,可以使用 gzip 压缩 Sitemap 文件,以减少带宽要求;但是解压缩后的 Sitemap 文件不得超过 10MB。如果要列出 50,000 个以上的网址,您需要创建多个 Sitemap 文件。

也就是说,一千七百多万个网址,由于每个 Sitemap 文件包含的网址不得超过 50,000 个,需要生成400个左右的sitemap文件。按照sitemap协议里提到的,需要一个Sitemap的索引文件。

3,sitemap的一般格式

至于详细的用法,当然到sitemaps.org了。

Sitemap:

<?xml version='1.0' encoding='UTF-8'?>
<urlset>
   <url>
      ...
   </url>
</urlset>

Sitemap 索引文件:

<?xml version='1.0' encoding='UTF-8'?>
<sitemapindex>
   <sitemap>
      ...
   </sitemap>
</sitemapindex>

4,用Perl写个脚本自动生成Sitemap文件

这种大工程,肯定不可能是自己手工一个个的来了。那估计是要累死。因为URL也有点特殊性。所以也用不到网上提供的其它工具,所以自己写个Perl脚本是挺不错的选择。

今天已经把这个脚本完成得差不多。目前在测试阶段。

5,向Google提交Sitemap文件

最后,如果上面的完成了。那当然就是向Google提交生成的Sitemap文件,包含有一千七百多成个页面。当然了,这个Sitemap文件文件不一定会提交的。正在考虑。嘿~

说了半天,你可能还不知道这些URL是关于什么内容的。呵,讲不清。自已移步去看,中文Entrez序列查询工具。不明白的话我也难以解释啊。

1 回复
  1. 印第安小狮 says:

    像你做的百度的sitemap也可以在一个网站里使用两个吗? 我用了两个WP程序,然后分别建立了它们的sitemap, 请问这样对收录有影响吗?

评论已关闭。