SEO概念01：认识检索 (Crawl) 与索引 ( Index )

2024-07-09 22:09:45 谷歌SEO 0 282

图片 1.png

检索（Crawl）和索引（Index）是SEO领域中非常非常基础的两个概念，是在学习SEO之前一定要理解的基本概念，但检索和索引的优化概念很大，只通过一篇文章我可能没有办法完整的讲完，因此这篇文章我只会针对基础的概念先进行解说，并在文章中链接到我曾经写过的相关文章来帮助你学习：）

理解SEO的『检索』以及『索引』

网络爬虫这个说法比较抽象，Google 官方将它称为 Google Spider、Google Bot，你可以把整个世界的网络想象为一个巨大蜘蛛网，而搜寻引擎本身有属于它的一只爬虫程序（甚至很多只不同类型的爬虫程序），程序会像蜘蛛一样在这巨大的网络上爬行，并收集信息。

做SEO工作，维护好搜索引擎爬虫与网站之间良好的关系是非常重要的，我们必须要尽量让它能够完整爬取你网站上的优质内容，否则会对你的网站 SEO 有影响（在这篇文章中我会慢慢提到），而搜索引擎运作原理我们可以简单分为四个阶段：

图片 2.png

阶段1 – 检索 Crawl（爬取）：搜索引擎的爬虫来你的网站上爬取、下载网站资料的这个动作我们叫做检索，在 Google 官方的文件上正式的专有名词叫做『检索』，但 SEO 业界比较习惯白话一点来称呼，通常我们会称呼为爬取、抓取等比较白话的用词。这个阶段 Google 的爬虫会在你的网站上爬取所有能爬到的资料，包含你的网页内容、程序代码、图片等所有的网页信息。

阶段2 – 索引 Index（收录）：将你的网页资料收录、建档到搜索引擎里面的这个动作我们叫做索引（白话一点来说就是收录的意思），但你的网站就算被收录到搜寻引擎里面也不代表你会得到很可观的搜寻流量，Google 也许愿意收录你的网站，但未必愿意给你的网站很好的搜索排名（取决于你的网站是否是一个优质的网站、是否有被很好的优化，否则 Google 也许愿意收录网站，但不愿意让你的网站很常被搜索到）

很多人以为网站没有搜索流量就代表没有被 Google 收录，其实这观念是不对的，『是否有被收录』、『是否有排名有流量』是两件事。但至少被 Google 收录进搜寻引擎是好的第一步，如果 Google 连收录你的网站都不愿意，那更不用谈搜索流量以及SEO了。

阶段3 – 分析搜索意图：Google 会透过算法来了解使用者搜索的「关键字」是什么意思？使用者到底需要什么信息？

阶段4 – 曝光在搜索结果：用户搜索查询关键字时，你的网站可能会被 Google 提供给搜索者，而你的品牌也会因此获得搜索流量（但这取决于你的网站是否是一个优质的网站、是否有做SEO）。

为什么学SEO要理解『检索』以及『索引』？

实务上我们在学习 SEO 时，会碰到很多网络上的文章主题都是环绕在所谓的「排名因素」，也就是你的网站该怎么做，才能被 Google 排名在搜索结果的前面名次，但实际上一个网站会面临到的 SEO 问题有很多，根据网站的架构、网站的行业、所在的市场等不同的因素而定，并不是只要优化「排名因素」就够了，Google如果没办法很健康的爬取你的网站资料，那么网站的排名因素优化做再好都没用，因为 Google 爬虫根本看不到你网站里面的资料，所以你要了解搜索引擎的爬虫到底是怎么检索（爬取资料），然后又是怎么索引（收录）网站。

举例来说，在我们实务上常常遇到有客户的网站是使用 AJAX 程序建构出动态式的瀑布流，在你进入网站时会看到四则文章连结，接着你鼠标向下卷动时，程序则会触发并出现后面四则 (简单来说就是如下图现在的做法，俗称瀑布流)，

图片 3.png

通常这个状况下，Google 爬虫只会爬取到一开始的前面几则文章而已，因为网络爬虫不会像人为使用者去往下卷动、并触发 AJAX 程序的瀑布流。在这类案例之下，Google 爬虫看到的网页信息很少，当然也会影响你的 SEO（不管你的网站再棒、再好，只要 Google 爬虫看不到，那么根本没有意义）。

因此做为 SEOer，研究、了解爬虫的效能是很重要的，我们必须要了解搜索引擎的爬虫有哪些效能限制、哪些网页技术是爬虫无法好好的爬取（像瀑布流就是大多情况没办法被搜索爬虫很有效的爬到资料），而Google的爬虫、Bing/Yahoo搜寻引擎的爬虫又各自是不同的团队/公司所开发出来，因此他们的爬虫效能又有些不一样，如果做 SEO 时希望除了 Google 之外的 Yahoo/Bing 也可以优化好，那么就要全部都花时间去研究。