2004年12月14日

八方日志今日开通。这里是铁牛写的介绍。我就不罗嗦了。

同时,我们收录的blog数量再次翻番,超过两万。不过还是不够啊。

2004年12月11日

大约在3个星期前,在这里我预计google会推出关键词推荐服务。哈哈,被我猜中了。今天google labs推出了一项新服务:google suggest。当你输入关键字后,它会自动地帮你打字,还推荐一些相关的关键字供你改进你的查询。目前还不支持中文。试用了一下,还比较好玩。搜索bush或kerry,看到有”bush sucks”和”kerry sucks”。搜索sex,没建议,被过滤了。


已经有两位中文blogger评价了这个服务。


估计google suggest的算法主要是基于google spelling correction和word clustering。但是目前google还没做同义词、近义词的推荐,因为这部分相当复杂,因为人类语言中存在大量歧义。我以前尝试过做concept-based word analysis,但是因为计算量太大,没有成功。:(


另外google labs推出了改进后的site-flavored search。这是一种profile-based personalization。


 

2004年12月09日

上周通过blog的referer看到有来自topim的访问,但是当时还没有开放注册。今天看到已经可以注册了。注了册,进去后感觉和bloglines很像,提供了feed订阅和刷新的功能,还提供了一个简单的收藏夹的功能。我想做这样的服务难点一是功能和界面设计要简单好用,另外一个就是要快并scalable,基本上要达到桌面rss reader的水平。祝topim成功。

猛小蛇的《狗日报》获得了德国之声的2004最佳博客奖。不过中国的blogger对此反映相当冷淡。在八方搜索中,我只看到了几条评论。其中有两篇比较有意思:一个是mimiqiao的,详细地介绍了猛小蛇和《狗日报》的背景;另一个是水木清华 maomy的置疑。maomy讲的有一些道理。德国之声的那些来自西方的评委们还是喜欢那些符合他们口味的东西的。


我并不欣赏这种评奖方式的。萝卜青菜,人各有爱。干嘛一定要排出个123出来,而且是由那几个评委来决定?


不过《狗日报》还是挺有意思的,角度和文字都比较独特。狗在中国的日子的确比西方国家的差很多。对不是自己家的狗,中国人很少有好脸色的。所以有话形容人衰是“惶惶然如丧家之犬”。许多骂人的话也是狗联系在一起的。就是自己家的狗,如果不是作为宠物养的,那也是被挥来喝去,也只能吃点残羹剩饭。因为人对狗不好,狗对人也不好,对陌生人大多充满敌意。狗和许多动物在中国的待遇需要改善。当街杀狗要明令禁止。


从《狗日报》获奖却遭中国blogger冷遇,我又想到前一阵子许多中国blogger对Dan GillmorNew Scientist介绍中国blogging的文章的不赞同。看来老外并不真正了解中国blogging,他们下意识地把中国blogger和持不同政见者联系起来。事实上,blog只是工具,其目的是什么完全由blogger的动机决定。


因为今年是美国的大选年,互联网也成了政治宣传的战场,所以政治blog在美国今年特别的火。之前政治blog也就那么回事。这种政治blog常常陷入无休止的空谈和争论中,真正有多少价值?我怀疑。个人以为还是“少谈主义,多解决问题”。


blog的内容应该是多元化的,灵活的。《狗日报》作为一种小媒体,充分体现了blog的优点:个性化的选题,自由的表达。传统的媒体是不可能做这个事情的。我觉得如果blogger们能够发挥自己的观察力和想象力的话,可以发掘出许多有趣的题材。


在blog里面,可以看到许多人在分享他们的所见所闻、兴趣爱好和喜怒哀乐。这都很有意义。我通过八方搜索发现了不少有趣的文章和图片,有共同话题的blogger。


另外,我期待更多的专业人士参与blogging。比如工程师可以分享他们的经验,医生可以普及一些医疗保健知识,老师们可以谈谈教育问题等等。这将会是一个“win-win”的结果:在互联网上可以找到更多更新的有价值信息,而专业人士也可以籍此增加自己的知名度和信誉。


 

2004年12月08日

今天去试用了一下新出的“智能搜索引擎”Accoona。搜索结果的相关性并不好,spam现象比较严重,而且高亮输出不好。所谓的supertarget技术似乎只是对搜索关键字进行权重的一些调整。这个功能很好用么?和人工智能有什么关系?我怀疑。研究了下他们的服务器,发现搜索引擎是可能是java-based,那么八成是用的nutch。


6月份的时候,他们就放出风来,要在年底推出一个前所未有的智能搜索引擎。当时去其网站看了一下,看到到是一些女子国际象棋比赛的信息,其中有张诸宸的照片还比较好看。估计该公司是比赛赞助商之一。但是这和搜索引擎有什么关系?!当时估计他们可能会作一些Information Extraction和Probabilistic Feedback方面的探索,现在看来他们并没有作这方面的工作。


Accoona的开幕式倒是非常热闹,而且在媒体上说“挑战google”。这个美国公司倒很有中国特色的。还花了大价钱请了克林顿来捧场。克林顿不当总统后,出自传,四处演讲,大赚特赚。好像中国人对他青睐有加,似乎忘了南斯拉夫大使馆被炸的事。这个公司的总裁Pfeiffer从前在Compaq干过,但是听说业绩并不好。

2004年12月04日

今天和一个做blogging的朋友聊天,谈到了新出的MSN Spaces。经他指点发现msn spaces的一些UI features只支持IE。其中的layout customization做得不错,和my msn风格一致。图片上载是通过ActiveX实现的,也很好用。音乐部分也实现了和media player的部分整合。

blogger们反应颇为热烈。
http://www.8fang.net/search/entry?q=msn+spaces&order=1

MS的品牌影响力可见一斑。

2004年12月02日

MSN Spaces is out!

看了一下,发现没有提供rss/atom feed。没想到MS也这么小气。但是,估计不久就会有的。

中文版么,可能还要等几个月。

八方blog搜索中看到已经有几个中文blogger有所反应了:
http://www.8fang.net/search/entry?q=%22msn+spaces%22&order=1

keso又抢了先。:)

2004年11月21日

八方搜索所跟踪的RSS/ATOM数量已经增长到11376,大约是初始规模的两倍多。目前索引的文章总数是103614。

不过这只是中文blogging的一小部分,我们还有很多活得干。

2004年11月20日

最近向一些朋友介绍了八方搜索引擎,8fang.net。一些不熟悉blogging的朋友们经常问的一个问题就是:blog搜索引擎有什么用?和google/yahoo相比有什么不同?

8fang的系统在原理上和google/yahoo搜索引擎是基本相同的,都是由spidering,、indexing和search三大部分构成。不同的是google/yahoo是面向整个web,处理的是html文件;8fang是专门面向blog的,处理的是xml格式的rss/atom文件。

通过blog搜索引擎,可以直接看到blogger关于某些话题的评论、思考和信息。例如,在这里可以看到关于台湾音乐人梁弘志去世的一些评论,又如在这里可以读到一些关于张纯如女士的文章。在此,你所发现的不仅仅是一些页面,更重要的是你发现了活生生的blogger。

另外,8fang.net的数据每6小时更新一次,在这里可以看到比较新的内容。

在将来,随着中文blogging的丰富发展和我们的收集的blog的增加,八方搜索服务会越来越有趣,有价值。


2004年11月19日

google的作风一向低调,神秘。他们一般是不披露自己在做什么的。只有等到都准备的差不多时,他们才会透点口风。

google labs的研究人员最近做了一些演讲。从中可以看到他们可能推出的新技术或新服务。

google labs在web 2.0和Washington大学的两个演讲中都提到了word clustering。word clustering是把相近/相关的词汇聚合在一起,并以某种方式表达他们之间的关系如:意义的近似、相关、反义、包含等等。google用的技术是经典的bayesian networks。这是一种表达能力非常强的概率图模型,但是它所要求的计算量是非常大的。理论上讲, bayesian networks的计算是NP-Hard。可能google的研究人员找到了一种特殊的图结构和相应的算法,再加上google上万台的pc cluster, 能够有效地完成web级的海量数据处理。

有了这个东西,google可以干什么?他们可能会推出:
1。智能化的搜索帮助:根据用户的初始搜索,推荐新的相关的搜索关键字或搜索导航
2。基于概念的搜索:可以对概念一级进行搜索,搜索的结果不再局限于关键字

比较搞笑的是,在google的word cluster中bush总是和idiot联系在一起。