我爱搜索引擎技术(52SE)

I love search engine(52SE)

2006年11月18日


    摘要:最近一段时间,基本上没有更新这里,当然不能躲过懒惰的指责,因为时间是海绵里的水嘛,呵呵。但是主要却因为最近确实是忙。因为是两年半的学制,明年3月份毕业,所以现在毕设,论文都到了最后阶段,找工作更是弄的人精疲力尽,虚火上升。一大堆的招聘会去是不去,一大堆的公司哪个是好,一大堆的职位哪个适合,选择的过程真是步步维艰,再加上毕业生的人山人海,真是越发让人觉得无所适从。同学们也都变得行色匆匆,满腹心事的模样。不过这也许就是个蜕变的过程吧,经过这一步的磨难,大家就都能腾飞了吧。     (全文共607字)——点击此处阅读全文


2006年09月26日


    摘要:接下来的事情就简单了,添米交钱装车走人。事情是完了,但是就是这么一件在有的人看来不值一提的小事,我承认它却让我胡思乱想了半天,并且感觉怪怪,因为它跟我自己买米时的情形相比完全像是两码事嘛。并且想到以刚才那位大娘的老街坊,既然能来这个店里买米,说不定这个店还是周围最好的店呢。另外以穷酸知识分子的习惯,我还联想到了不少的乱七八糟,甚至想到了汉初太尉周勃入狱命悬之时被狱吏所救之后感叹狱吏之能的恍然。哦,对了,还想到了曾经的新东方教师罗永浩,老罗同志。    (全文共5586字)——点击此处阅读全文


2006年09月01日


    摘要:最近一直在看百家讲坛这个节目,看来是已经喜欢上了。看了三国看红楼,看了红楼看金庸,虽然对其中讲解的部分观点不是很赞同,但是其引经据典,寻找证据的研究问题方法很对我的胃口。今天在网上闲逛,看到这篇文章《悟空和观音的爱情》,虽然有点扯皮,但是自我感觉其文章风格很是类似讲坛啊,所以贴过来,给有兴趣的朋友解解闷儿。    (全文共25908字)——点击此处阅读全文


2006年08月04日


    摘要:现在实现基本中文分词功能的代码和软件模块很多,性能也还可以,但是怎样将其应用到NUTCH中的方法介绍相对较少,下面我就实现NUTCH中文分词的NUTCH代码修改方法与步骤,抛砖引玉的介绍一下。代码修改的切入点是通过对NUTCH处理中文的切分器Tokenizer的修改或者替换(这里介绍的是替换),使中文分词由单字切分变为词语切分。对于相关的NUTCH基本知识,我就不赘述了。因为NUTCH的检索功能基于Lucene,所以你用来替换的切分器必须满足Lucene的Tokenizer特征,最主要的是保证输入与输出相符,分词后输出的必须是Token流。幸运的是,现存的分词程序或软件模块基本上都满足此需要,即使有所偏差,一般通过对其输入输出的修改就可以满足需要。我前面提供给大家的那个分词程序就可以经过简单修改应用于NUTCH中。     (全文共32916字)——点击此处阅读全文


2006年07月24日


    摘要:前一段时间一直在忙着参加SEWM06会议准备(http://www.sewm2006.edu.cn/),BLOG都有点荒废了,真是过意不去。不过参加会议的收获还是蛮多的,这个会议偏向学术的性质,主要讨论的是信息检索技术和相关模型的研究与探索,对搜索市场的发展关注不多,但是也有涉及。会议的亮点是北大李晓明教授的报告,他给出了一个信息检索技术与社会应用研究相结合的新思路,并且展示了一些已经做出的成果。当然包括GOOLE工程师在内的其它人的报告也相当精彩,特别是对于那些关注于搜索技术实现与性能的朋友就更有意义。报告的PPT文档现在已经开放下载(http://www.sewm2006.edu.cn/data.htm),欢迎感兴趣的朋友参考。另外还要一件让人兴奋的事。因为多日没有关注我的BLOG,今天(2006-7-24)特意用GOOGLE和BAIDU搜索了一下52SE,想不到在中文网页中都是排在第一位的,别的什么都是次要的,事情本身真是让人开心。为了这个以后也得继续努力,对这里好好经营啊。    (全文共4582字)——点击此处阅读全文


2006年07月06日


    摘要:利用Java进行略显底层应用开发的时候,其IO和多线程部分是两个比较大的难点。这篇文章对IO系统的概括条理很是清晰,有助于让你跳出Java像洋葱一样层层包括的IO迷宫。    (全文共60872字)——点击此处阅读全文


2006年06月19日


    摘要:函数参数传递过程中,如果传给函数的参数是一个对象,那么传递给函数的其实是这个对象的Reference的Reference copy,但是二个Reference其实指向的是同一个内存中存在的对象。如果在函数中对此参数对象的值进行了修改,那么在这个函数体外再调用这个对象的时候,这个对象的值是被修改过了的。但是传给函数的参数如果是一个基础类型变量,例如int,float等,那么传给函数的是这个变量的一个copy,两者不是一个变量,在函数中对这个参数进行的任何修改,在函数体外再调用这个变量时,这个变量的值还是原来的,像根本没有被函数当参数使用过一样。     (全文共15389字)——点击此处阅读全文


2006年06月15日


    摘要:昨天接到朋友电话,说他有个略显麻烦的问题。新上马的管理系统项目中很多地方需要计算分配给员工任务的预期完成时间,麻烦在于不确定的地方太多。首先任务到达的时间不确定,可能是任何一天的任何时候,另外分配给员工完成此工作的预期操作时间不确定,预期操作时间中还不能包括工作外时间和周末休息时间,更重要的是,每个员工的开始工作时间和下班时间也是不一样的。因为老板要求朋友解决这个问题的时间又很紧,他有点头晕,问我可不可以帮帮忙。    (全文共40345字)——点击此处阅读全文


2006年06月14日


    摘要:其中有一句话引起了我的注意:“明初,樊姓作为洪洞大槐树迁民姓氏之一,被分迁于河北、天津、北京、河南、山东、江西等地。”其实主要是“大槐树”三个字引起了我的注意。为什么呢,因为小时候没出来上学以前,有段时间经常跟爷爷呆在一块,可能是因为实在是没啥聊的了,爷爷曾经跟我说过我们祖上的事。爷爷说祖上一直传下来说老家来自一棵什么什么的大槐树,但到底是什么意思爷爷说也不知道。并且年代久远,也没有人愿意去为这件事花费心思了。当时年少好奇,还曾经问过爸爸,爸爸说的确是有这么回事,并且还听我老爷(爸爸的爷爷)也这么说过呢,但是没有人有心思去考究它。对于弄清这个谜我曾经很是痴迷了一段,后来时间长了,我也就不了了之了。那么这里的大槐树迁民,和爷爷说的大槐树是不是有所关联呢?    (全文共7418字)——点击此处阅读全文


2006年06月13日


    摘要:推荐一个JAVA资源下载点:http://www.javafan.net。我是学Java的,对于Java源码和书籍有一种莫名的热情。这两天忘了是怎么链接到这个站点的,感觉上面的源码和书籍挺不错的,一是速度还行(本人网通环境),更重要的是站点很淳朴,不会一点就是一大堆广告弹出来,上面的介绍也都实事求是,没有用术语板儿砖拍人。有兴趣的朋友可以上去看看,特别是那些刚刚接触Java或者有Java爱好的朋友。特别声明,本人和此站点没有任何特殊关系,纯粹出于对朴素的热爱。并且可能很多人都已经早知道这个站点了,那么我是一个后来者,大家也别笑。    (全文共2603字)——点击此处阅读全文


2006年06月07日


    摘要:因为NUTCH在中文分词方面的缺陷(只支持单字分词),很多朋友对搜索引擎中文分词很感兴趣。这里有一份我在最初接触分词技术的时候从网上获得的分词JAVA源代码,功能很齐全,并且自带词典,可以实际运行。虽然性能方面可能仍然有待商榷,但是满足初步的应用还是可以胜任的。如果只是为了对分词原理和编码进行了解和学习,那效果就更好了。Jar包可以从http://fanjingxin.googlepages.com/segmenter.jar下载,我先简单说一下使用方法。    (全文共30560字)——点击此处阅读全文


2006年05月31日


    摘要:本人观点:这是最近一段时间我在网上看到的关于搜索引擎研发或者说创业方面最值得圈点的文章。不一定是真理,但是确实有启发。很多人误解垂直搜索就是把相关的行业网页做一个采集,进行正文抽取,实现搜索,完成信息册查询。其实并非如此。如果这样无法和网页搜索竞争,网页搜索很容易就可以将网页库按行业分类、按地区分类。垂直搜索应该是对垂直行业信息进行深度的加工,有效的整合,为用户提供网页搜索无法做到的专业性、功能性,为用户提供深一步的服务和完整的体验,而且不仅仅是提供信息的检索。垂直搜索是和信息搜索有本质的差异化的。     (全文共24351字)——点击此处阅读全文


2006年05月23日


    摘要:到了商店,先选个姑且称之为手机机箱,然后来个手机主板,选个手机键盘往上一插;需要多大的手机屏幕啊,那就选一个相配的手机显卡,然后把显卡往主板上一插,再把屏幕液晶块往显卡上一接,OK,手机有雏形了。接着需要什么功能?通话短信功能没的说,挑一个插到主板上用啊,手机电池,想用哪个用哪个,自己选,只要机箱装的下。什么摄像头啦,MP3啦,统统没问题,找个摄像头组件和MP3组件插上去,再配个闪存卡插上去,OK啦。另外还想要功能?没问题,继续买了插啊,三个闪存槽呢,一大堆即插即用插槽呢,怕啥,想装啥功能都往上插,没问题啊。    (全文共4572字)——点击此处阅读全文


2006年05月18日


    摘要:在分析了WebDB之后,下面我们继续分析Nutch爬虫在对实验网络抓取之后其它的结果文件内容。我们知道,pagerank算法是一个递归的过程,其算法复杂度和花费的时间较为巨大,所以在进行局域网爬行的时候Nutch自动省略了这一操作,幸运的是,局域网中网页的检索在没有这一步的情况下效果是理想的。但是对于整个网络的爬行以及检索,LinkAnalysisTool操作是至关重要的,它也是google获得巨大成功的重要原因。    (全文共57629字)——点击此处阅读全文


2006年05月17日


    摘要:为了更深入地对Nutch爬虫进行了解,我们需要运行一个实际的抓取过程并对这个过程中的细节进行记录,对抓取生成的结果文件进行内容分析。首先你需要下载Nutch程序并搭建起可以令其运行的平台,这在网上都有详细的说明资料,我就不赘述了。我们需要做的第一步就是建立起一个实验用的Web站点,这个站点只包含了四个网页。图1描述了这四个网页之间的链接关系,并且C网页和C-dup网页的网页内容是相同的。    (全文共30886字)——点击此处阅读全文


news

 
  敬请订阅我的网志:
  从FeedSky订阅我的网志:
  【新手订阅指南】
  通过Google订阅
  通过bloglines订阅
  通过狗狗订阅
  通过MyYahoo订阅
  通过PodCast订阅
 
 
 
 
 
 【我的豆瓣】
  真的希望走出足迹来!
  除非特别声明,本站采用许可。
  最佳显示效果:1280*1024;32位真彩
















本站站内搜索

最近更新

Donews InOut

My InOut

导航

blog stats

文章

收藏

相册

Blog邻居

相关链接

存档


正在读取评论……