<<<<<<< .mine =======
当前位置: 首页 > SEO > 页面相似度查询工具的扩散思考

页面相似度查询工具的扩散思考

时间:2012-06-06 21:03:16
在我的SEO不常见的几个工具分享这篇文章中,介绍了一个页面相似度查询的工具页面,即Similar Page Checker,这个工具很好用,输入两个你要比较的页面,即可以查看出两个页面的相似程度,这个工具可以让你尽量降低页面的相似度,以免被搜索引擎惩罚。本月中,我们自己也需要实现这个功能,做一个这样的SEO工具,其实,这个功能看似简单,但却包含了不少核心算法的东西在里面,本篇就这个相似度的问题,引申出一些相似度查询的算法来。

相似度查询的一些算法,列表如下:

1,cosine similarity。它是评测两个向量的相似度,通过两个夹角的cos值来实现。给定向量A和B,cosine相似度θ就可以通过以下公司计算:

cosine相似度

具体算法可以参考http://en.wikipedia.org/wiki/Cosine_similarity。

2,Jaccard similarity。即Jaccard Index,是用来统计样本集合的相似度的,它采用两个集合的交集除以两个集合的并集来实现:

Jaccard index

具体算法可以参考http://en.wikipedia.org/wiki/Jaccard_similarity。

3,Dice's coefficient。具体算法参考http://en.wikipedia.org/wiki/Dice%27s_coefficient。

4,Overlap coefficient。类似Jaccard index。

5,Edit distance。即Levenshtein distance,在信息理论或者计算机科学中,是用来在文本阵列中测量两段文字的不同量,具体内容参照http://en.wikipedia.org/wiki/Levenshtein_distance。

6,Plagiarism detection。即剽窃检测。随着互联网的高速发展,人们对于信息和文章的来源获取变得异常方便,而抄袭就变得一下子那么容易,剽窃检测就变得尤为重要起来,剽窃检测一般用于科学论文的鉴定、艺术设计的评测,以及源代码的比较等方面。

该算法的应用场景及引申:

1,代码比较。做过开发的人肯定知道一些代码比对工具,这个在版本管理工具中很重要,比如svn中check下来的代码,经过修改后,你想提交到服务器,在提交之前,你需要跟现有版本做一下比对,确认一下修改的具体代码片段,以此来作个验证,是个很好的习惯。当然,在linux中,也有这样一个工具,叫diff,它可以让你通过命令方式来比较两个文件的不同之处。

2,作业检查。老师布置给学生作业,如何检查学生的抄袭现象?通过计算机的使用,使用文本相似度比较,就可以很容易得出答案。

3,版权保护。如何拒绝剽窃和抄袭现象,更好的保护知识产权,通过文本相似度的比对,也可以很轻易的做到。

4,指纹匹配,人脸识别。对于指纹以及人脸识别,其实就涉及到了图形图像的相似度比对中来了,这里可能引申的有点大,但是笔者认为算法还是有其相同之处吧。

5,文本数据挖掘。即text mining,也可以说text analytics,它是一个从文本海量数据中挖掘出高质量的信息的一个过程。详细内容可以参考http://en.wikipedia.org/wiki/Text_mining。

这次就算泛泛而谈吧,希望我们自己能够加快研究步伐,将这个页面相似度工具尽快研发出来。

相关文章

html5强大的功能(一)

html5得出现被传的神乎其神的,做前端的总是要跟随着潮流发展,不过在跟风之前还是想要了解一下html5真正的魅力所在。...

Ubuntu下apache+tomcat集成实战新解

对于apache web服务器来说,大家肯定不会陌生,作为最主流的http server之一,凭借其强大的性能,灵活的配...

SEO总结:简析那些养不起的论坛资源

 随着互联网的快速发展,依附着网络生存的SEO等网络营销也随之兴起,并逐步受到各大企业和站长的追捧;SEO作为一个新兴行...

由金字塔矩阵原理假想说开去

经常搜索“SEO”的童鞋,肯定会知道SPD论坛在百度首页的几日游。从去年的狼雨到今年的剑雨,不管做法是白是黑,能在短期内...

英语商务邮件

随着文军信息的发展,我相信在不久的将来,很多同事都会接触到一些外国客户。与他们沟通,英文邮件是肯定少不了的,因此我总结了...
沪ICP备10034044号-12
400-685-0732
400-685-0732 在线咨询