前几天,遇到一位客户,说自己的站点地图一直提示抓取失败了,试了几种方法都不行,想让我试试。我看了一眼网站,猜测是sitemap标准码写得不对,就答应了下来。之前也遇到过“站点地图无法抓取”的情况,原因如下:曾经有个大型商城站的客户,想用一个sitemap文件去囊括全站几十万条url。他说,这样能充分利用Google抓取预算,只抓取一个sitemap文件就能爬边全站,不好吗?我解释到,拆分sitemap只是多了几个文件,占用不了抓取预算,且符合Google SEO指南的要求——大型网站需划分sitemap文件。这里要提醒下,大型网站sitemap要进行划分:商品、新闻、视频、blog,甚至有时候商品之间都要进行划分去做对应的sitemap文件。3.系统刷新问题,一般隔天会更新抓取状态,从“无法抓取”到成功。先排查了下他写的sitemap.xml文件代码,虽然精简了,但是捋一遍发现是没问题的系统刷新问题,既然人家已经反复提交了,这点原因应该不存在的。外部IP访问受阻?难道Google测试IP抓取不了?用爬虫模拟器尝试爬行,发现首页受阻了,难道是这个原因导致Google无法抓取?随后,爬虫模拟器可以正常爬行和抓取了,但是Google search console站点地图结果显示还是“无法抓取”。没办法,上Google搜索找点思路。发现了下面两则提示:和客户沟通了下,告知是.cc域名的问题,但客户不认可。他手上有一个.cc域名的sitemap文件是可以被Google正常抓取的,为什么现在不行?我也犹豫了,决定买个.cc域名试试看看,如果新域名都不行,我觉得只有这条理由能解释了。买域名-买空间-搭建一个基础网站-验证GSC-生成站点地图-等待测试结果这下明白了,原来是.cc域名在捣鬼,顺手给GSC官方提了反馈建议。我也是第一次遇到这种情况,做个记录,方便需要的人。