前几天,遇到一位客户,说自己的站点地图一直提示抓取失败了,试了几种方法都不行,想让我试试。

我看了一眼网站,猜测是sitemap标准码写得不对,就答应了下来。
之前也遇到过“站点地图无法抓取”的情况,原因如下:
2.sitemap.xml文件写太大了,抓不动。
这里插一嘴。
曾经有个大型商城站的客户,想用一个sitemap文件去囊括全站几十万条url。
我问他为啥这样做?图省事吗?
他说,这样能充分利用Google抓取预算,只抓取一个sitemap文件就能爬边全站,不好吗?
我解释到,拆分sitemap只是多了几个文件,占用不了抓取预算,且符合Google SEO指南的要求——大型网站需划分sitemap文件。
果然,他的站点地图,Google一直提示失败。
这里要提醒下,大型网站sitemap要进行划分:商品、新闻、视频、blog,甚至有时候商品之间都要进行划分去做对应的sitemap文件。
3.系统刷新问题,一般隔天会更新抓取状态,从“无法抓取”到成功。
4.外部ip访问失败。服务器阻止了谷歌爬虫抓取。
根据上述几条原因,我们一条条排查。
先排查了下他写的sitemap.xml文件代码,虽然精简了,但是捋一遍发现是没问题的







