<<<<<<< .mine =======
当前位置: 首页 > SEO > 开源web搜索引擎nutch简介

开源web搜索引擎nutch简介

时间:2012-01-20 22:00:45
至今为止,商业化的大搜索引擎公司很多,谷歌,百度,雅虎,必应,搜狗,搜搜,等等。大家都是了然于心。但是,我要是问一句,你了解多少开源数据库框架呢,估计知道的人不是很多吧,这里,我就要献丑一下了,装一下专家,斗胆来写一写开源的web搜索引擎的一些东西,希望大家不要见笑,抛砖引玉吗,应该鼓励一下。

nutch

话不多说,转入正题,今天我要讲的一个开源web搜索引擎框架,那就是nutch。Nutch是一个基于完全开源的搜索引擎包,它是Apache基于Lucene Java项目的产物,它的效率可以和商业搜索引擎相媲美。作为一个研究平台,Nutch有其开放灵活的架构,用户可以基于Nutch来定制自己的搜索引擎。Nutch的建立目的就是增加Web搜索的透明性。

nutch架构

Nutch有其高质量和模块化的架构特点,允许使用插件来进行media-type解析、Html分析、数据检索、查询和集群化处理。Nutch的的核心模块主要有三个:

1)Crawler。用来发现、抓取和获取web页面信息。

2)WebDB。用来存储已有的URL以及获取的网页内容。

3)Indexer。为已有的网站网页信息和相关链接建立基于关键词搜索的索引。

Nutch的优点:

1,极高的扩展性和丰富的爬虫配置特色。

2,鲁棒性。你可以在一个有100个节点的集群上构建你的Nutch系统。

3,丰富的robots.txt规则实现。

4,质量优先。你可以配置爬虫优先去抓取重要的页面信息。

基于Nutch实现的搜索引擎系统有:

1,Creative Commons Search - 2004建立,2006年改为基于 Nutch实现。

2,DiscoverEd - Open educational resources search prototype developed by Creative Commons

3,Krugle。

4,mozDex。

5,Wikia Search -建立于2008, 2009关闭

6,search2.net。

7,Tothego.com。

如何实现自己的基于Nutch的搜索引擎。

实现一个基于Nutch的搜索引擎其实很容易,你只需具备以下几个条件即可:

1,了解搜索引擎工作的基本原理

2,熟悉命令行的一些操作

3,具备一定的java知识,并理解Servlet容器的工作原理。

具备以上一些知识,你就可以配置自己的Nutch搜索引擎了。在这里我就卖个关子,后续我会将Nutch的实践和体会发一篇文章出来,手把手的与你共享如何基于Nutch来构建一个自己的搜索引擎,敬请期待。

相关文章

从事SEO客户经理的体会

加入上海文军信息已经将近3个月了,虽然时间不长,但是学到的东西却很多,感触颇深。接下来我就和各位分享下我这段时间的工作体...

SEO之美食篇

今天文人小资一下,2011年过去,2012年来到,百世岁月当代好,千古江山今朝新。新的一年先给文军信息的所有同事们送上新...

IIS日志之http返回码(2)

返回码3XX已经说过了,今天说下返回码4XX。3XX是中定向返回码,4XX是请求错误,遇到大量此类的状态码就要小心监测网...

和bshare的创办人CEO交流有感

昨天和vc去静安寺和bshare的创办人CEO李总有几个小时的交流,深入了解了这个很优秀公司的基因。 跟对方交流的...

我也“会”做整站优化啦!

做SEO的都会注重网站的整站优化,给网站的关键词做排名是后话,做一个备受蜘蛛喜爱的网站才是基础,如果新建的站不受搜索引擎...
沪ICP备10034044号-12
400-685-0732
400-685-0732 在线咨询