谈搜索引擎判断文章是否原为创的几种方法

2020-04-28 来源：网友投稿

在这个“内容为王”的时代，济南东尚信息感触最深的就是原创文章对一个网站的重要性。假如一个网站在某一段时间，如果网页内容质量不过关，那么直接结果就是网站被降权，网站流量下降。

虽然知道原创文章的重要性，但是大家也都知道，一篇两篇原创文章没有什么大问题，如果长久的保持网站文章的原创那是一件非常艰难的事情，除非那些大型网站站长的手下有一批专职的写手或者编辑。那么没有这种优渥条件的站长们怎么办呢？只能是伪原创与抄袭。但是伪原创与抄袭来的方法真的有用吗？今天济南东尚信息就来和大家分享一下搜索引擎对于重复内容判定方面的知识：

问题一：搜索引擎如何判断重复内容?

1、通用的基本判断原理就是逐个对比每个页面的数字指纹。这种方法虽然能够找出部分重复内容，但缺点在于需要消耗大量的资源，操作速度慢、效率低。

2、基于全局特征的I-Match

这种算法的原理是，将文本中出现的所有词先排序再打分，目的在于删除文本中无关的关键词，保留重要关键词。这样的方式去重效果高、效果明显。比如我们在伪原创时可能会把文章词语、段落互换，这种方式根本欺骗不了I-Match算法，它依然会判定重复。

3、基于停用词的Spotsig

文档中如过使用大量停用词，如语气助词、副词、介词、连词，这些对有效信息会造成干扰效果，搜索引擎在去重处理时都会对这些停用词进行删除，然后再进行文档匹配。因此，我们在做优化时不妨减少停用词的使用频率，增加页面关键词密度，更有利于搜索引擎抓取。

4、基于多重Hash的Simhash

这种算法涉及到几何原理，讲解起来比较费劲，简单说来就是，相似的文本具有相似的hash值，如果两个文本的simhash越接近，也就是汉明距离越小，文本就越相似。因此海量文本中查重的任务转换为如何在海量simhash中快速确定是否存在汉明距离小的指纹。我们只需要知道通过这种算法，搜索引擎能够在极短的时间内对大规模的网页进行近似查重。目前来看，这种算法在识别效果和查重效率上相得益彰。

问题二、搜索引擎眼中重复内容都有哪些表现形式?

1、格式和内容都相似。这种情况在电商网站上比较常见，盗图现象比比皆是。

2、仅格式相似。

3、仅内容相似。

4、格式与内容各有部分相似。这种情况通常比较常见，尤其是企业类型网站。

问题三、搜索引擎为何要积极处理重复内容?

1、节省爬取、索引、分析内容的空间和时间

用一句简单的话来讲就是，搜索引擎的资源是有限的，而用户的需求却是无限的。大量重复内容消耗着搜索引擎的宝贵资源，因此从成本的角度考虑必须对重复内容进行处理。

2、有助于避免重复内容的反复收集

从已经识别和收集到的内容中汇总出最符合用户查询意图的信息，这既能提高效率，也能避免重复内容的反复收集。

3、重复的频率可以作为优秀内容的评判标准

既然搜索引擎能够识别重复内容当然也就可以更有效的识别哪些内容是原创的、优质的，重复的频率越低，文章内容的原创优质度就越高。