搜索引擎网页去重算法和指纹算法

百度SEO 0 6686
王施帆SEO公众号

    想做好网站收录,一定要了解去重算法和指纹算法,只有这样才能更好地做好原创网页,帮助网站促进收录,提升排名。

    对一个新的网页,爬虫程序通过网页去重算法,最终决定是否对其索引。

sousuo.jpg

  近似重复网页类型,根据文章内容和网页布局格式的组合分为4种形式:

  一:两篇文档在内容和布局格式上毫无区别,则这种重复称为完全重复页面。

  二:两篇文档内容相同,但布局格式不同,则这种重复称为内容重复页面。

  三:两篇文档有部分重要的内容相同,并且布局格式相同,则这种重复称为布局重复页面。

  四:两篇文档有部分重要内容相同,但布局格式不同,则这种重复称为部分重复页面。

 重复网页对搜索引擎的不利影响:

    正常情况下,非常相似的网页内容不能或只能给用户提供少量的新信息,但在对爬虫进行抓取、索引和用户搜索会消耗大量的服务器资源。

 重复网页对搜索引擎的好处:

  如果某个网页重复性很高,往往是其内容比较比较受欢迎的一种体现,也预示着该网页相对比较重要。应予以优先收录。当用户搜索时,在输出结果排序时,也应给与较高的权重。

 重复文档的处理方式:

  1.删除

  2.将重复文档分组

quchong.jpg

  SimHash文档指纹计算方法 :

zhiwen.jpg

  1)从文档中提取具有权值的特征集合来表示文档。如:假设特征都是由词组成的,词的权值由词频TF来确定。

  2)对每一个词,通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。每个词都对应各自不同的二进制值。

  3)在N维(上图为8维)的向量V中,分别对每维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。

  4)当所有的词都按照上述处理完毕后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。




相关推荐: