学习这篇文章之前,相信你已能够区分 检索 与 索引 的差别了,并且我将告诉你如何使用meta robots 以及 robots.txt 来优化 Google 检索与索引,若没概念我建议你先阅读我的上一篇文章。
延伸阅读:认识检索 (Crawl) 与索引 ( Index )
meta robots 以及 robots.txt 的工作分别是阻止 Google 检索、索引你的页面。在这个年头,仅仅有 SEO 排名/流量高是没有用的,流量必须对企业有价值、能够创造转换,所以用户体验相对重要,如果你有特定页面会伤害用户体验(UX),你可以通过这些方式去阻止该页面出现在 Google 搜索结果中。
ü robots.txt可以阻止搜索引擎检索你的资料,如果你使用了robots.txt来阻挡搜索引擎,那么搜索引擎将会略过你所阻挡的页面,不去做检索。
ü 但meta robots 就不同了,他在索引层面阻止搜索引擎索引你的页面,但Google 还是有爬你的网站资料的,但究竟为什么我们要这样做?后面我将娓娓道来。
学习使用 Robots.txt
基本上,大多数的情况我们都不会使用 robots.txt 来阻止搜索引擎检索我们网站,除非你确定这个页面对 SEO 有负面影响,若你有单个页面不希望出现在搜索引擎中,我建议使用 Meta Robots 来控制索引就好,网站的资料还是一样让 Google 去检索。
使用 robots.txt 文档很简单,你只要建立一个档名为 robots 的 txt 文档,并且上传到根目录就好,并且在这个文档内写上你希望 Google 别抓取的页面路径。
如图,你会看到在 www.wangshifan.com 下面的根目录我就上传了这个文档,并且我不希望搜索引擎抓取到网站日期页面,造成大量重复页,所以才会有 Disallow:/date-* 。
基本上在 robots.txt 文档内你只要填好这些信息:
User-agent:填入搜索引擎蜘蛛的值(* 号代表全部)
Disallow:填入你希望搜索引擎别检索的页面路径
Allow:若你禁止检索的页面路径里面又有特定路径你希望搜索引擎检索,则填入
学习使用Meta Robots
要用 meta robots 你只要直接把它加在 head 底下,你必须要在“你不希望被索引的页面底下”,加入这个标签至head里。
所以如果你有六个页面不希望被索引?没错这六页你都要手动去加入 meta robots。
meta robots 的标签是长这样:
<head>
<meta name=”robots” content=”noindex , nofollow“>
</head>
基本上这个标签有 noindex 以及 nofollow 两个值:
index vs noindex
当你不希望搜索引擎索引此页面,就填上 noindex,若希望正常索引便填上 index
follow vs nofollow
至于follow这个值是指,若你希望搜索引擎在检索此页面时,不进一步的去检索该页面所连出去的链接,你就填上 nofollow 的值。这个功能通常会用在社群论坛或是网站讨论版,是为了防止有人在你的页面上乱贴链接来意图增加他的 SEO 反向链接及排名,使用 nofollow的话搜索引擎的检索会在该页面停止,不继续往其他链接前进,可以防止乱贴链接的事情发生。
两个值的功用完全不同,我来举几个范例让你完全清楚如何使用。
1. < meta name=”robots” content=”noindex , nofollow”>
这个做法便是告诉搜索引擎,不要索引我的网站,并且在检索资料时该页面的相关链接也不要去检索。
2. < meta name=”robots” content=”index , nofollow”>
检索资料时该页面的相关链接不要检索。
3.< meta name=”robots” content=”noindex , follow”>
不要索引我的页面,但页面上所有的链接请正常检索(最常用之使用方式)
4.< meta name=”robots” content=”index , follow”>
这个做法就没有任何意义,加上这段标签跟没加的道理是一样的,等于搜索引擎将正常索引及检索。
做 SEO,何时会用robots.txt阻止Google检索?
对于检索(Crawl)优化的工作上,你的网站 Google 必须要看得懂、并且资料也抓得到。有些动态的网页结构对网络爬虫的检索来说是有问题的,Google 根本检索不到资料…。Google 的网络蜘蛛基本上已经是市场上效能最好的,但相对来说象是Bing、百度,他们的效能就未必像 Google 这样优秀,所以我们要随时关注搜索引擎的检索状况。