我要去桂林---田春峰的IT网志

IT改进生活

  DonewsBlog  |  Donews首页  |  Donews社区  |  Donews邮箱  |  我的首页  |  联系作者  |  聚合   |  登录
  135篇文章 :: 2篇收藏:: 104篇评论:: 20个Trackbacks

公告

天天多么乐

田春峰的IT网志
田春峰


seo 客户端工具下载
Alexa Top 100 索引量研究报告
-->

accesine's Rapleaf Score

关于我的信息链接

Donews Blog

Subscribe with Bloglines

洪洞县杜戍村

文章

收藏

相册

IT精英

存档


正在读取评论……


nutch 0.7 plug-ins 详解

最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享:
1、
nutch 0.7 发布了;
2、nutch 的java源代码包路径改变成了org.apache...
3、yahoo也使用了nutch,并做了很多的工作。1 2

clustering-carrot2 :
           一个搜索结果类聚的代码框架,目前和Egothor等搜  索引擎结合的很好;
            地址:http://sourceforge.net/projects/carrot2
             相关类:org.apache.nutch.clustering.OnlineClusterer
                            Nutch Online Search Results Clustering Plugin
                            org.apache.nutch.clustering.carrot2
                            Carrot2 Clusterer
creativecommons :
           一个创作共用的工具集合。地址:http://creativecommons.org/ ;
            相关类:
                        org.apache.nutch.parse.HtmlParseFilter
                        HTML Parse Filter
                        org.apache.nutch.indexer.IndexingFilter
                        Nutch Indexing Filter
                        org.apache.nutch.searcher.QueryFilter
                        Nutch Query Filter
index-basic :
                      相关类:
                        org.apache.nutch.indexer.IndexingFilter
                        Nutch Indexing Filter
index-more :
language-identifier : 语言检测工具;
                         相关类:
                           org.apache.nutch.analysis.lang.LanguageParser
                           Nutch language Parser
                           org.apache.nutch.analysis.lang
                           Nutch language identifier filter
                           org.apache.nutch.analysis.lang.LanguageQueryFilter
                           Nutch Language Query Filter

ontology : 一个概念话的规范,主要是针对人工智能的;
                         相关类:
                            org.apache.nutch.ontology.Ontology
                            Ontology Model Loader
parse-ext :
parse-html :
parse-js :     解析js文档
parse-msword : 解析msword文档
parse-pdf : 解析pdf文档
                      相关类:
                         org.apache.nutch.parse.pdf.PdfParser
parse-rss : 解析Rss格式文档
parse-text : 解析text文档
protocol-file :
protocol-ftp :
protocol-http :
protocol-httpclient :
query-basic :
query-more :
query-site :
query-url :
urlfilter-prefix :
urlfilter-regex :


Trackback: http://tb.donews.net/TrackBack.aspx?PostId=524456


[点击此处收藏本文]  发表于2005年08月24日 5:41 PM




正在读取评论……

发表评论

大名:
网址:
验证码
评论