The Way We Web

每个BLOGGER都是一道独特的风景--兔子快跑的BLOG,学习,关注BLOGGER的人文精神

导航

Blog统计

公告

Creative Commons授權條款

我的订阅 征集订阅地址尝试中:如果你觉得自己的BLOG想多一个读者,请将你的RSS地址用邮件发送给我。我会做你的忠实读者。唯一的条件是,BLOG以原创为主。任何内容都可。 这样做的想法是基于在BLOG阅读中你的个性对读者理解的重要,与其偶遇,不如寻求。所以若有简单的自我介绍,很好,没有,一样的好。总之,我相信通过这种主动的寻求方法,会得到更加优良的信息沟通。 即便人,或众生在本体上的平等只是一个理想的境界,我也只是想从这个过程中学会如何心无差别的对待世界:不要担心你的信息会在我这里被滥用。 目前我的订阅数在700左右,我的目标是至少一万,所以,不要害羞,把你的RSS像扔垃圾一样的甩过来。我的原则是,来者不拒,保证订阅!

文章

收藏

相册

存档


正在读取评论……

其实GOOGLE很久前就将一些技术性的BLOG如 gadget,salshdot等等做为技术消息新闻来源,现在,这家BLOGCRITICS也被列为搜索源了,这是一个以评论为主的群体性BLOG,内容涉及音乐,书籍,电影,文化政治等等。

之前我注意到MSN早就把它做为新闻源之一。

因为来自BLOGSHPERE的内容太多太杂,我一直区分着两个领域内的内容:GOOGLE NEWS搜索的内容来自比较可靠的媒体,而用BLOGLINES,TECHNORATI等等主要用于两种搜索:一是新闻的萌芽,一是新闻的反馈,也就是之前或者之后。

搜罗BLOG进入GOOGLE NEWS,一方面说明BLOG的信用度在提高,一方面也让我无所适从,我想最好的办法还是做一个区分,这也是我一直很奇怪的事情:GOOGLE为什么一直不进入RSS搜索市场?


喜欢挑GOOGLE的毛病的JEAN在他的日志中发表了一些数据,证明GOOGLE自称已经索引了WWW上网页的数量有明显的漏洞:

以搜索关键词 THE为例,这是任何一个英文或者类似语言者都可能包含的词,当搜索所有网页时,结果数量有80亿,而搜索英文网页时,数量却只有8千万,只占到1%,那99%的THE都出现在非英文网页中吗?这明显不合理。

而用YAHOO搜索的结果比较“合理”,所有网页中含THE的有19亿,而英文网页含THE的有17亿。

不过看到后来我算明白了一点,作者发现GOOGLE对出现频率约在5百万之上和之下的词语做了一个区分点:如果一个词出现频率高于这个点,它在英文网页中的搜索将被进行忽略处理,(搜索THE有什么意义?)而在所有语言的搜索中,则不进行这种忽略优化。如下图所示:


有人说,GOOGLE吹嘘了他们索引网页数量的总数,我觉得不是,一个简单的结论就是GOOGLE的英文搜索算法和其它语言的算法是不一样的,英文搜索更加优化。究竟差别还有什么,也不是我们能够搞得清楚的了。这也许是其它国家的语言搜索引擎的一个机会,毕竟,没有人能够通吃全世界的语言。


Trackback: http://tb.donews.net/TrackBack.aspx?PostId=261230


[点击此处收藏本文]  发表于2005年01月29日 2:01 PM




正在读取评论……
大名
网址
验证码
评论