社会的概念融入软件,是一次真正的革命,它开启了一扇窗户,让技术与人、与社会的结合,展现出新的可能,也让冷冰冰的IT因此第一次有了人味儿。

近来很多人在谈论社会化搜索,但究竟什么才是社会化搜索,似乎并无定论。但很明显,以Google为代表的,以链接、关键词为核心的搜索引擎,在日益膨胀的海量信息面前,已经显得越来越力不从心。就像Ben Hunt所说,我并不想要248,000个结果,我只要一个、一个、最好的那个。

Yahoo!在社会化搜索方面用力不小,除了收购del.icio.usFlickrUpcomingWebJay等有着浓厚社会化色彩的网站,还自己开发了My Web。据Yahoo!搜索产品副总裁Eckart Walther说,My Web的目的是要建立一种“社会化”的搜索引擎。它可以搜索特定群体常用和信任的网站内容,从而弥补普通海量搜索的不足。

但正如《商业周刊》所说,Yahoo!的社会搜索,是将搜索由一个被动行为变成一个互动行为,但首先要做的就是建立足够大的社区网络。这也就是麦田所说的“社会化搜索=社区”,我并不完全同意这个看法。

我们常常会遇到这样的情况,我知道某个特定的信息一定存在于某个我不知道的角落,我需要的只是借助机器和人的力量,将它找到。比如,我要找1995年比尔·盖茨那份著名的备忘邮件“互联网大潮”的全文,我知道它一定存在,但是很难被现有的搜索技术找到。就像前面Ben Hunt要找的,只是一名住得离他不远,可以帮他清理房间的清洁工人,而不是24万个结果。Hunt可能最终会求助于他的邻居、朋友,而不是一个搜索社区。

一个搜索社区,无论它有多庞大,都不可能穷尽所有已存在的信息。这样的社会化搜索,在某些专业领域可能有效,但在更大的生活领域,就会失灵。因为它不但舍弃了24万个结果,同时也舍弃了其中可能真正有用的结果。My Web的不温不火,也证明了这一点。在很多时候,My Web确实可以让我们的搜索结果变得更少,但却没有变得更好。

社会化搜索仍然要依赖算法,仍然要依赖现有的可检索数据,而不是做一个社区,利用一下人肉搜索引擎就能解决问题。搜索的社会化并不是降低了算法的重要性,恰恰相反,它让算法变得更加重要、更加复杂,因为人成为软件工作的对象,人的属性、人的行为、人的关系、以及人产生的所有数据,都成为影响搜索结果的重要因素。

任何算法,都有着不断改进优化的可能,但人们发现,越到后来,这种改进的效果越不明显。典型的例子是机器翻译,早期机器翻译过两三年,准确率就能从70%提升到80%,用户可以明显感觉到这种进步。但现在,花费同样的时间和精力,可能只能把准确率从95.1%提升到95.2%,而用户根本感受不到这种提升。这让机器翻译成为可以大规模商用产品的时间,变得遥遥无期。

Google负责工程与研究的高级副总裁Alan Eustace个人最看重的一个方向,还是机器翻译。但这里的机器翻译,不再是过去的机器翻译。它借助Google现有的海量数据,从中找出同一原文的不同译本,并加以分析。也就是说,机器翻译不再只是锲而不舍地改进自身算法,它必须从人的鲜活的工作中获得灵感,不断进化。Eustace认为,长远看,单纯某一种语言的搜索将变得没有意义,因为互联网终将打破语言的限制,就像它曾经打破地域的限制一样。其他语言的内容,将通过你熟悉的语言呈现给你。

当然,今天距离语言限制的真正打破,还有很遥远的距离,但这种“万物皆备于我”的境界,还是很令人憧憬的。但即使到那时候,Google仍然不能说,它实现了“整合全球信息,使人人皆可访问并从中受益”的使命,除非它成为一个完全可以为“我”定制的搜索引擎。

机器翻译遇到改进的瓶颈时,换一个思路又会海阔天空。搜索引擎也一样,社会化搜索可能只是让现有的搜索技术换一个思路的问题。


23条评论

  1. 小板凳,留名

  2. 社会化的搜索以IM为切入点比较的好,将每个人的DELICIOUS+BLOG+FLICKR+SEARCH HISTORY+GROUPS 搜索集成到IM中,在IM这个客户端来实现社会化搜索是我需要的,也是个很便利的地方。而且既可以同时的使用人脑和机脑来搜索。

    也可以通过联系人中的贡献量来实现排名:)

    当然最好能够在IM中也发展下六度理论,可以将这个小脑袋根据需求扩展到2,3.。度来实现更好的搜索。

    这样我就不必太麻烦我联系人中的那么多脑袋了。

    有现成的资源可以切入利用,为什么要搞那么复杂的MYWEB的搜索。

    社会化搜索的确是下一个火爆点,也是时代所需。到时候GOOLGE现存的搜索引擎的收入肯定要大打折扣了。

  3. 不就是人肉搜索么,呵呵。

  4. 社会化搜索是更好的组织下社会化的数据。

    网页的增多成就了今日的GOOGLE

    什么WEB2.0的社会化的数据的搜索该是超越GOOGLE的一个机会,

    不过这么多的社会化数据,GOOGLE已经整合了不少,GMAIL,GROUPS,SEARCHHISTORY,PICASA,GOOGLE EARTH…GTALK HISTORY…

  5. 简单归纳现时搜索引擎的局限性:

    1、单纯依赖算法,而没有让算法与人的搜索意愿产生交互式的自适应。

    2、单纯依赖关键字的输入,而忽略了影响搜索结果的众多参数,如时间、地点、个人爱好、职业习惯、兴趣、学历、交际网络、专业背景等等个性化参数。

    3、过分依赖对Web网页等非结构化数据的搜索,忽略了对结构化数据的深度提取与应用。

    4、搜索经验无法有效保存与分享,尽管Google的Co-op与Windows Live Search的Macro都想将搜索引擎使用者的搜索经验保留下来并与其它人共享,但共享的利益机制现时并不完善,而且搜索经验也仅仅是对搜索结果的限定,并非全程跟踪。

    5、图像识别与语音识别方面进度缓慢,搜索引擎技术依然停留在以Web文字基础的范畴之上

    6、相关性结果缺乏深度发掘,智能化建议搜索关键字仍然需要持续改善。

  6. 好文章。社会化只是思路,最终还是要靠算法来实现的

  7. 最近连续写了3篇关于DONEWS的文章,请刘老指正:

    1融资前后

    2没了keso和laobai,donews还剩下什么?

    3 骨哥对话炳叔

    http://blog.donews.com/goge/category/124406.aspx

  8. 最近连续写了3篇关于DONEWS的文章,请keso指正:

    1融资前后

    2没了keso和laobai,donews还剩下什么?

    3 骨哥对话炳叔

    http://blog.donews.com/goge/category/124406.aspx

  9. 呵呵,我相信keso看到了我们这个站。。。

    英雄所见略同啊。完全自定义,完全属于自己。

  10. 鼓掌。

  11. MS真买下了wallop.com域名?

    看上去www.wallop.com和mywallop.com的风格不一样。

    很多用户都开始在用mywallop.com的帐号在wallop.com上登录,还反应登录不上。

  12. 也许,搜索的来源需要改进

  13. keso误会雅虎Social Search了,你不该把两个搜索模式对立起来。

  14. keso所说的机器翻译,是说欧美语言之间的翻译吧.从英语到中文的翻译,systran所做的是以其昏昏,使人昭昭.而利用搜索的方法来获得文章的翻译,也要:

    1.那个好的翻译句子存在

    2.有人把它捡出来

    3.机器学会了在合适的地方灵活运用

    这种机器学习的方法,在没有海量的,精确标注的干净数据的支持的时候,是很难有好的结果的.

  15. 垃圾邮件你不收的时候,它留在邮件服务器上,我可以不理它。

    流氓软件插插插插插插插插插入到你的电脑里面,你不理不行。

    垃圾邮件离我们这么遥远,那流氓软件和我们贴身。

    乱发垃圾邮件要坐牢,

    那我们为什么不能以刑事罪行告那些写流氓软件的人?

  16. 要想让搜索引擎只返回一个最准确最想要的结果,需要搜索引擎知道你的爱好,你最近研究的课题,甚至你的大脑正在想着什么。Google的个性化搜索是个方向,不过电脑是死的,大脑是活的,我们在搜索一个关键字在不同的环境可能代表不同的含义。最好的是让电脑连接到你的大脑上,直接分析你大脑所想,根据上下文就能找到最准确的结果。

  17. 呵呵,前几天麦田写的,我没怎么看懂,现在看了keso的说法,我算是真知道你们谈论的是什么样的事情。也许我也该找个地方写一篇?

    人肉搜索,或是说社会化搜索,我认为需要明确以下几点:

    1.这样的搜索占目前搜索需求的多大比重?

    文中举出的搜索附近街区的清洁工人显然不是什么好例子,实际上用传统的垂直搜索加上地区分类,只要数据量足够大,分类足够细,很容易就能找见。谈不上什么人肉搜索。真正目前搜索引擎通过数据扩展和数据挖掘无法做到的需求到底有多少,这是个疑问。

    2.对于人的行为,到底能做到多大的精准性?

    对于人的活动进行数据挖掘能够最终进行到什么地步?

    我以知识搜索为例,一个参与型的百度知道类型的搜索社区,固然可以通过增加自然语言判断和机器选择答案来获得一个有智能的知识搜索引擎。但是相比于专业人士整理的如answers.com来说,知道类型的社区是否更有效?我认为是不一定的。尤其是人类的自负,使得网上的每个领域都能充斥着一批伪专家,其数量比真的专家只多不少,这个时候,无论是通过投票分析,还是通过参与程度的分析,都不能得到最佳的结果。充其量是一个80%正确的知识搜索,那么这种搜索在准确率上,是否真能比将来的专业搜索要强?在其它搜索需求上,也存在这种问题。在排错不能的时候,如何是好?

    这两点都是有待解答的疑惑。

  18. 1

  19. 一篇一下子不容易看懂的文章,感觉到里面的闪光,打印下来,明天吃早茶的时候研究研究。

  20. 等社会发展到人脑电子化的时候,所有的信息就可以共享和搜索了!象<<攻壳机动队>>那样的社会! 说得有点天马行空了!

  21. 飘过…

  22. KESO简直无所不知,无所不晓,连“社会化搜索”这种生涩怪僻的东西也能侃得头头是道,太强了

  23. 我怎么发表不上呢??

    奇怪!

发表评论

评论也有版权!

click to change验证码