第一, head部分。在我研究seo的这段时间里,我发现很多站长在列表页和内容页采用统一的关键词和关键词描述。这里就占了网页相似度的10%。接着,我们继续分析。
第二, 导航栏和侧边栏部分。是的,当我们流量很多网站在内容页时,的确整个站的内容页都是同样的导航栏,侧边的一些推荐文章或产品都是同样的。这里又占了网页相似度的10%。
第三, 网页的底部。我想我说到这里,大家应该很清楚了,有的网站采用了全站foot.html模板,是不是整个站的底部都是同样友情链接,同样的备案信息,同样的公司名称等。这里就占了网页相似度的5%~10%。
我们通过以上的分析,我们可以知道就算我们不添加内容,该新网页就与以前的网页相似度达到了25%~30%。试想一下,我们更新和以往类似的文章,搜索引擎还会来收录吗?就算我们现在更新的内容与以前的相似度是50%,那么整个网页的相似度就达到了75%~80%的这么一个高度。为什么当我们更新这类文章的时候,搜索引擎很快就收录了,但是整个网站的收录还是保持原样。举一个例子,我在当天更新了5篇文章,搜索引擎收录了5篇,网站的总收录为1000篇,按照理论上我们第二天的收录量为1005篇的,但是通过site命令一查,仍是1000篇的收录。后来通过分析,原来我们发现现在更新的文章的网页与之前收录的文章的网页他们之间的相似度达到了90%,搜素引擎收录了我们更新的文章,过滤掉了以前的文章的网页。可能搜索引擎觉得新更新的要比之前的有价值,所以选择了新更新的。
这里我们就引发出一个问题了,为什么有些转载的文章也能被搜索引擎收录呢?很大一部分原因是该文章在这个网站从没出现过,再加上该文章在互联网转载的少,最后该文章与同类文章的相似度低。以上的针对的搜索引擎研究主要是百度,如果一个网页的相似度做到30%的话,那么你的网站在的收录量会提高1.5-2倍。对于搜搜和谷歌以及搜狗,效果会更明显。