Google search console无法抓取站点地图解决思路

GSC指导 14 42
王施帆SEO公众号
大家好,我是王施帆。

本文仅提供一个解决思路,并非解决方案。
前几天,遇到一位客户,说自己的站点地图一直提示抓取失败了,试了几种方法都不行,想让我试试。
图片
我看了一眼网站,猜测是sitemap标准码写得不对,就答应了下来。
之前也遇到过“站点地图无法抓取”的情况,原因如下:
1.sitemap.xml代码不够官方、不标准。
2.sitemap.xml文件写太大了,抓不动。
这里插一嘴。
曾经有个大型商城站的客户,想用一个sitemap文件去囊括全站几十万条url
我问他为啥这样做?图省事吗?
他说,这样能充分利用Google抓取预算,只抓取一个sitemap文件就能爬边全站,不好吗?
我解释到,拆分sitemap只是多了几个文件,占用不了抓取预算,且符合Google SEO指南的要求——大型网站需划分sitemap文件。
果然,他的站点地图,Google一直提示失败。
这里要提醒下,大型网站sitemap要进行划分:商品、新闻、视频、blog,甚至有时候商品之间都要进行划分去做对应的sitemap文件。
3.系统刷新问题,一般隔天会更新抓取状态,从“无法抓取”到成功。
4.外部ip访问失败。服务器阻止了谷歌爬虫抓取。
根据上述几条原因,我们一条条排查。
先排查了下他写的sitemap.xml文件代码,虽然精简了,但是捋一遍发现是没问题的
图片
网站本身是个小型网站,不存在文件过大。
系统刷新问题,既然人家已经反复提交了,这点原因应该不存在的。
外部IP访问受阻?难道Google测试IP抓取不了?
先用全球访问工具测试下打开情况:
图片
全球都正常打开,且速度也没问题。
用Google官方网页检查工具测一下:
图片
正常抓取、索引,也没有问题。
我打开网站首页,发现网址有跳转(301)状态:
图片
用爬虫模拟器尝试爬行,发现首页受阻了,难道是这个原因导致Google无法抓取?
试着调整301为200状态,不让它这样随便跳转,
随后,爬虫模拟器可以正常爬行和抓取了,但是Google search console站点地图结果显示还是“无法抓取”。
等一天看看,系统会重新抓取吗?
第二天,依然是“无法抓取”,挺失望的。
没办法,上Google搜索找点思路。发现了下面两则提示:
图片
图片
似乎找到答案了!
是.cc域名问题?
和客户沟通了下,告知是.cc域名的问题,但客户不认可。
他手上有一个.cc域名的sitemap文件是可以被Google正常抓取的,为什么现在不行?
我也犹豫了,决定买个.cc域名试试看看,如果新域名都不行,我觉得只有这条理由能解释了。
买域名-买空间-搭建一个基础网站-验证GSC-生成站点地图-等待测试结果
图片
图片
新域名的站点地图,也是无法抓取的。
这下明白了,原来是.cc域名在捣鬼,顺手给GSC官方提了反馈建议。
我也是第一次遇到这种情况,做个记录,方便需要的人。
行,就写到这!


相关推荐: