2004年11月21日

八方搜索所跟踪的RSS/ATOM数量已经增长到11376,大约是初始规模的两倍多。目前索引的文章总数是103614。

不过这只是中文blogging的一小部分,我们还有很多活得干。

2004年11月20日

最近向一些朋友介绍了八方搜索引擎,8fang.net。一些不熟悉blogging的朋友们经常问的一个问题就是:blog搜索引擎有什么用?和google/yahoo相比有什么不同?

8fang的系统在原理上和google/yahoo搜索引擎是基本相同的,都是由spidering,、indexing和search三大部分构成。不同的是google/yahoo是面向整个web,处理的是html文件;8fang是专门面向blog的,处理的是xml格式的rss/atom文件。

通过blog搜索引擎,可以直接看到blogger关于某些话题的评论、思考和信息。例如,在这里可以看到关于台湾音乐人梁弘志去世的一些评论,又如在这里可以读到一些关于张纯如女士的文章。在此,你所发现的不仅仅是一些页面,更重要的是你发现了活生生的blogger。

另外,8fang.net的数据每6小时更新一次,在这里可以看到比较新的内容。

在将来,随着中文blogging的丰富发展和我们的收集的blog的增加,八方搜索服务会越来越有趣,有价值。


2004年11月19日

google的作风一向低调,神秘。他们一般是不披露自己在做什么的。只有等到都准备的差不多时,他们才会透点口风。

google labs的研究人员最近做了一些演讲。从中可以看到他们可能推出的新技术或新服务。

google labs在web 2.0和Washington大学的两个演讲中都提到了word clustering。word clustering是把相近/相关的词汇聚合在一起,并以某种方式表达他们之间的关系如:意义的近似、相关、反义、包含等等。google用的技术是经典的bayesian networks。这是一种表达能力非常强的概率图模型,但是它所要求的计算量是非常大的。理论上讲, bayesian networks的计算是NP-Hard。可能google的研究人员找到了一种特殊的图结构和相应的算法,再加上google上万台的pc cluster, 能够有效地完成web级的海量数据处理。

有了这个东西,google可以干什么?他们可能会推出:
1。智能化的搜索帮助:根据用户的初始搜索,推荐新的相关的搜索关键字或搜索导航
2。基于概念的搜索:可以对概念一级进行搜索,搜索的结果不再局限于关键字

比较搞笑的是,在google的word cluster中bush总是和idiot联系在一起。

2004年11月18日

google gmail最近开始提供免费的pop/smtp服务。昨天看到我的帐户已经pop
enabled了,于是就试了一下。当时还不能连上服务器,估计是他们在晚上做维护。今天早晨一试,已经可以收发邮件了。


看了一下邮件,没有任何的广告。本来gmail的广告就不起眼。我用了快五个月了,还没有点过一次。用了pop后,连广告的影子都不见了。google这次又想做活雷锋了?


我估计google这次行动的目的可能是:
1。最近yahoo, msn都在宣布免费邮箱扩大容量,google也得有所表示。
2。目前yahoo, msn的pop服务都不是免费的,google此举是进一步打击对手的盈利能力。
3。尽管gmail在网络上已经红透半边天了,但是一般的yahoo/msn用户还是不会随便的放弃自己使用以久的帐户。google想以此进一步吸引用户。


pop服务看似和web服务相矛盾,而且会影响广告收入,但是二者是有互补性的。pop主要是为了offline处理,web mail仍然会是online的主要方式。通过pop服务,可以吸引更多的用户,也可以让用户更频繁地使用gmail。这样广告收入可能反而上升。


我又发现,gmail pop没有提供邮件的tag信息。难道我又要在本地进行一次分类?估计这是google的一个策略:籍此,大部分时间用户还得使用web mail。或许,将来搞一些收费的pop服务来创收也未尝不可。


我听说google在做gmail时估计可以每年从每个用户得到5美元左右得广告收入,其成本估计是每个用户2美元。但是我现在怀疑gmail能否给google带来那么多收入?毕竟,我在读邮件时,对广告没有什么兴趣。而我在做搜索时,对相关的广告还是有兴趣的。


估计这个新的服务出来后,hacker们又可以做新的文章了。因为smtp/pop都是标准化的协议,所以做个基于gmail的存储服务如文件系统服务可能更容易了。

2004年11月12日

张纯如


今天一早看到关于张纯如(Iris Chang)开枪自杀的新闻,感到震惊。

这是一个人道主义者之死。

她所从事的探索和写作(南京大屠杀、美国华人移民史、日本战俘营)是太沉重了。

愿她的灵魂好好安息。

2004年11月10日

我一直喜欢看韩少功曾经主编过的《天涯》杂志,有意义也很有趣。其中有一个栏目就叫“民间语文”,登载的是平头老百姓的日记、书信或自述。我曾经读过文革时期的日记、家书,西藏活佛的家族故事,吸毒者的日记,小女生离家出走的故事,等等。这些未经雕凿的文字虽然不比文人的笔墨那般精致,但却非常的真实亲切,令人感觉回味无穷。

互联网的出现使民间文学找到一个全新的载体。这个新载体的传播能力比以往的口口相传或个人间的文字来往要强上百倍:一个人的文字或图像可以被千百个人阅览,阅览可以发生在任何时间或任何地点,而且读者和作者之间可以很方便地互动。在此种能力的支撑下,民间文学和民间话语的生命力比以往更胜百倍。从文本的BBS,到web论坛,到现在的blog,这些都是例证。

2004年11月08日

昨天去参加了BloggerCon III。顾名思义,BloggerCon是讨论blog的,但它有点特别:它不仅是关于blog现象的学术研讨会,也是活跃的blogger们的大party。这一点可以从会议的slang -celebrating the art and sciene of weblogs 看出。参加会议的人大概有400多,许多有名的blogger如dave winer, robert scoble, mary hodder, doc searls等都来了,blogging方面的公司如feedster, technorati,newsgator, bloglines的老总也没落下。够热闹的。

这次会议的讨论主要是关于blog在学术、医疗、政治和新闻等领域的发展,新的blog形式(podcasting, moblog),blog的意义和潜在的法律问题。大部分的讨论都是侧重于blog对生活和社会的影响,技术性的讨论并不多。事实上,到目前为止,blog本身并没有使用复杂的技术,但是blog对今后的社会的影响却不是个简单的问题。如果对这些讨论比较感兴趣,将来可以在archive里看到这些讨论。

会议的讨论方式是非常自由的。“everyone is an expert。”每个人都有发言的机会。主持人看上去只是个管管传递话筒的。组织者dave winer是个原则性非常强的人。因为会议是个blog user conference,不允许进行商业宣传。当有人想打点插边球,dave从不客气。

我是带着zheng的问题去的。为什么在这里blog已经发展成为不可小视的媒体?在这个会议里,听着热烈的讨论,我感觉到blog的兴盛和这里的法律对言论权利的保护、积极的草根运动精神和强烈的自我组织意识是分不开的。

晚饭很热闹,一堆人围在一起海阔天空地瞎侃。很多人听到中国已经有了几十万blogger后都很兴奋,对管制的问题很关切,对我们的八方RSS/ATOM搜索也很感兴趣。高兴的是又认识了一些新的朋友,而且还有机会向我一直喜爱的bloglines的创办人mark fletcher表示了谢意。

希望我们中国blogger也能有这样的一次聚会!

八方

  • 开始提供文章搜索结果的RSS输出。当你完成搜索后,在搜索结果的上方会有一个RSS图标。它所对应的URL就是这个搜索的RSS输出地址。把这个地址拷贝到你的RSS Reader中,你就可以不断地得到你的搜索的新结果。谢谢大郎的建议。

  • 索引更新加快。现在可以每天对index进行四次更新。虽然可以更新频率可以更高,但是为了减少国内blog服务器的负担,我觉得四次比较恰当。我们的spider是一个遵纪守法的家伙,不会过于频繁访问服务器。

  • 对搜索结果的导航提供“上一页”和“下一页”的便捷导航。小改进,希望有用。

还有东西尚未完成,下次再说了。

2004年11月03日

美国的选战已经达到最高潮,今天是决定胜负的时刻。根据民调,bush 和 kerry的支持率仍然非常接近,几乎在统计的误差范围内。说不定又会出现四年前florida的争议事件。

尽管在我的眼里,无论谁当选,美国还是美国,还会在伊拉克抗下去,还会以美国利益为中心。但是bush和那个dick的所作所为实在令人反感,希望他们早点滚蛋。

听说在那些摇摆不定的几个州,双方不仅在电视上铺天盖地的做广告,动用支持者挨家挨户的拉票,而且还用自动电话四处拨打宣传录音。哈哈。这些中间派日子也不好过啊。加州么,肯定是民主党的了,所以倒也安静。