
一. 介绍 统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Post script ),文献[Models and Algorithms for Duplicate Document Detection 1999年]将内容重复归结为以下四个类型:
1.如果2篇文档内容和格式上毫无差别,则这种重复叫做full-layout duplicate。 2.如果2篇文档内容相同,但是格式不同,则叫做full-content duplicates 3.如果2篇文档有部分重要的内容相同,并且格式相同,则称为partial-layout duplicates 4.如果2篇文档有部分重要的内容相同,但是格式不同,则称为partial-content duplicates
近似重复网页发现技术就是通过技术手段快速全面发现这些重复信息的手段.如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。发现重复或者近似网页对于搜索引擎有很多好处:
1. 首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间来存放更多的有效网页内容,同时也提高了web检索的质量。 2. 其次,如果我们能够通过对以往搜集信息的分析,预先发现重复网页,在今后的网页搜集过程中就可以避开这些网页,从而提高有效网页的搜集速度。有研究表明重复网页随着时间级别不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的. 3.另外,如果某个网页的镜像度较高,也就预示着该网页相对重要,在搜集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。 4.从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验.因而近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量。 |
前言:正确认识搜索引擎优化 真正的 SEO 是通过采用易于搜索引擎索的合理手段,使网站...
很多SEO前辈都回答过这个问题。答案分别是:2-8%、3-7%、低于10%、5%左右,你自己选一...
一.百度最新算法更新 一.百度日益注重网站访问量,所谓的访问量请勿用流量来概括,其...
第一种、独立的标题 尽量为每个页面写上独立的标题,特别是一些产品页栏目页等,标题...
其实GOOGLE排名前面的网站较多,各行各业都有,我们分析SEO的绞绞者,关健字网站建设...
1.列表策略 建立一个多少个。这样的文章经常会成为权威文件而被大量引用,引用者会链...
我们知道,搜索引擎都有自己的搜索机器人(ROBOTS),并通过这些ROBOTS在网络上沿着网...
关健字的选择我们建议通过软件或BAIDU指数查询。http://index.baidu.com 打开这个网址...
保证在 Google 排名第一是谎言 如果 SEO 宣称可以确保您名列前茅,或声称与 Google 有...
权重就是排名的核心,拥有权重就是拥有排名。 东莞网站建设 公司总结如何从百度中获取...