我爱搜索引擎技术(52SE)

I love search engine(52SE)

2006年04月



    摘要:最近总是睡眠不好,不是那种通常型的失眠:晚上到了半夜睡不着,而是说半夜会突然很清醒的醒来,清醒到你白天也从来达不到的清醒。然后接着就是睡不着,感觉没有困意,翻来覆去等着天明,等到闹钟一响该起床了,反而马上会觉得睡意朦胧。有几次我都产生了把闹钟定为半夜的冲动,但是为了确定自己还是正常的人,忍住了没有这么做。另外在睡眠中还不停的做梦,稀奇古怪而又感觉真实,有时候过完一周就会突然弄不清楚记忆中的某件事情上周是真的发生过还是曾经的一个梦。    (全文共5257字)——点击此处阅读全文




    摘要:我这里有100份Gmail邮箱邀请信,如果谁有需要,请留下Email地址。    (全文共5490字)——点击此处阅读全文




    摘要:下面我们来研究一下fetch操作,在爬虫中,抓取是最主要的操作。    (全文共65161字)——点击此处阅读全文




    摘要:继续剖析NUTCH爬虫。接下来的几个命令和命令调用的类,主要是为最核心的fetch工作做准备的,我们首先来看看以下这些操作,然后集中精力再看fetch类。    (全文共38265字)——点击此处阅读全文




    摘要:牛顿先生告诉我们,如果想看的远,那就得站到巨人的肩膀上。所以,在自己动手之前,前辈们的研究成果不能不先看看。在网上搜索并整理了一下,发现关于NUTCH的中文学习资料或者说是心得真的不多,其中大部分还都是关注于怎么安装配置上面,稍微深入一点的东西就只能看英文的了。看英文对于大家来说当然难度也不是很大,但是比起中文来终究是有点费时费力。所以我在学习NUTCH的过程中顺手整理了一些看过的资料,一是给自己留点备注,二是拿出来和大家讨论学习。中间出于水平原因,难免有什么纰漏,欢迎大家批评指正。---剖析NUTCH爬虫    (全文共36917字)——点击此处阅读全文




    摘要:最近着手开始研究Nutch,以前在Linux上曾经对Nutch鼓捣过一段时间,但当时纯粹是出于一种好奇和玩乐的心态,并没有对其进行过深入的探讨和研究。随着自己的论文方向锁死在搜索引擎爬虫,在此之前又一直关注于搜索算法理论和数学模型等的学习上,现在是到了静下心来在实现技术上花点功夫的时候了。    (全文共14869字)——点击此处阅读全文


news

 
  敬请订阅我的网志:
  从FeedSky订阅我的网志:
  【新手订阅指南】
  通过Google订阅
  通过bloglines订阅
  通过狗狗订阅
  通过MyYahoo订阅
  通过PodCast订阅
 
 
 
 
 
 【我的豆瓣】
  真的希望走出足迹来!
  除非特别声明,本站采用许可。
  最佳显示效果:1280*1024;32位真彩
















本站站内搜索

最近更新

Donews InOut

My InOut

导航

blog stats

文章

收藏

相册

Blog邻居

相关链接

存档


正在读取评论……