-只说 
sayonly.com
                

english |
other
      

创业生存手册
 
概要:

本文试图通过一系列线索揭示Google Base与Semantic Web(语义网,以下简称SW)的关系,以此窥探Google在互联网服务的战略布局。当然本文属于创业生存手册系列,在系列的开篇中只说提到这个系列会提到web2.0,所以本文也会比较SW在web2.0的关系。本文引用的SW的资料大多数为英文资料,有识之士可以翻译并推介这部分材料,将是对于国内互联网整体水平的大的提升。

Dedicated to another SW – Simon Willison。


1,Google Base

Google Base(应该是base.google.com,暂时无法访问)还没有发布,谣言已经满天飞了,从webleon的给出的链接看到,google的产品拓展经理Tom Oliveri列出了一份清单,给出了正式的解释(只说译):

你也许已经看到了今天很多关于我们正在测试的一款新产品的报道,猜测了我们的计划。在这里我告诉你们我们真正在作的是什么。我们在测试一种内容拥有者提交他们的内容到google的新方式,通过这种方式,有希望补充我们已经使用的方式如google机器人以及SiteMaps(站点地图)。我们认为这是一款让人激动的产品,有新消息我们会立即通知你们。

这则简单的声明已经没有办法满足很多人的好奇心,试用过的人给出截图,更多的人在猜测google究竟在干什么。

webleon文中说,应该是一个由用户自行创建网络数据库的服务。这些数据可以是任何的内容,从可以看到的数据内容看到,有

-聚会服务的描述;

-网站上关于时事的文章;

-二手车出售列表;

-蛋白质结构的数据库。

这些内容,真的只是网络数据库、用户隐私?或者是google头脑发热的一次作恶(evil)?

从google的对这个项目的声明和更多的猜测看,恐怕不这么简单。种种迹象表明,这是google在作一次SW的试水,是google开始向SW服务靠
拢的一个试探。为什么只说能这么肯定,SW究竟是个什么东西,它怎么有那么大的魔力,让google这么讳莫如深?这话得从头说起。

当然,也只有google,在产品的测试期间就能掀起这么强烈的关注。





2,Google与Semantic Web的亲密接触


几年前,Simon Willison发了一个简短的blog文章
对于google在作一些关于SW的研究而赞叹,他看到了一份以未来笔调描述google如何战胜Amazon和Ebay这些竞争对手的恢宏论文,作者是
Paul Ford。Simon
Willison是一位很geek的程序员,我一直有看他的blog,虽然未必能完全看懂,他现在去了yahoo,有趣的是,它的名字的简写也是SW,把
本篇文章献给他(其实应该是本章,但那样说也太失礼了)。

Paul Ford那篇被多次提到(还有 Stuart)的文章讲的是,2009年,Google统治了互联网这个媒介,回顾如何击败Amazon和Ebay的历程,其实是一篇比较通俗的整体讲述什么是SW的文章,读起来颇为有趣。同样有趣的还有那个EPIC,当然就与SW无关了。

其实美国东岸的几所学校对于SW的应用研究都很长时间了,最有成果的应该是piggy bank



2003年,google买了一家小公司,叫做Applied Semantic,应该用来做Google adsense的。因此有人写了一篇题为google在SW投资的文章,可以参看。


google的搜索质量总监Peter Norvig今年初有一篇文章,题目叫做SW可以做什么,不能做什么是只说读到关于SW应用最透彻的文章之一,这系列文章很长,从各个方面探讨了SW应用和概念。Peter Norvig是个非常有眼光的人,我以前也是一直看他的网站,虽然至今他还没有blog,但是终于有RSS输出了。他有一篇传世文章,叫做十年学编程后来被很多人翻译过,其实这是他在NASA研究中心时候写的,呵呵,时间过去得真快。


如今的Google
Base的出现,必然有Norvig的眼光和推动力来成就这个网站。其实欧洲人比美国人更急于想实现SW,甚至已经有了semantic
weblog,例如qlogger.com,但是没有人象norvig一样技术渗透,而且身后是google这样的公司。


背靠着索引着最大互联网网页数量的google,在将网络爬虫使用到了极致之后,极有可能是第一个可能局部实现SW的商业机构,无论从技术还是从市场上看。当然SW是一种理想,至少google base让我们初尝到这种口味。


让我们看一看,什么是SW,为什么Google要实现SW?


3,什么是Semantic Web?

什么是SW,就得先谈谈它的发明人Tim Berners-Lee,同时也是WWW的发明者。


Tim Berners-Lee在近几年的报道提到互联网发展时(一般放到Future一页里面)无一例外的提到了SW,大约是发明WWW之后再发明不了其他玩意儿了,或者是其他玩意儿都没劲了。当然也还有其他的,5月的报告指出,目前网络在手机上面临的困境跟96年互联网在pc上面临的困境一样。当然,SW是对于整个互联网说的,跟接入的设备没有什么关系。专门关于SW的报告是题为SW在这里,列出了Nokia、HP、IBM等厂商的SW的进展,也可以在这里看到那次会议中谈论的细节,不过那里看不到那个SW在这里报道中的那个SW的形象图
画的是各种材料,包括砖头和木材,组合成的一头大象。形象地说明了在SW下,是各种可以识别的材料,组成了整个世界。many things to
many people。只说喜欢他们另外一个宣传口号:Web Evolution causing a quiet revolution



SW的核心意义在于网络内容是由多种可以识别的数据组成的,在早期的互联网,93年左右,互联网停留在文件形态,组成的是一个个文件,传送都是使用ftp
等工具;94年左右互联网处于文本的形式,出现了html和URI(唯一地址),可以通过这个地址进行访问;而不断演化,今后将在以XML等可以标记的数
据结构中,而网页只是展示这些数据的一种工具,你可以通过任何其他的形式进行展示,甚至机器也可以识别。互联网不再是由一篇篇的文档和页面组成,而是由一
部分一部分细碎的数据构成。


这样说比较玄妙了,其实还可以解释得更简单一点。SW就是把原来的互联网内容,切成碎片,文章标题归文章标题,发布时间放到发布时间,文章概要归文章概
要,分别存放,每一个部分都是机器可以识别的(当然实际可能更复杂一点)。在Paul Ford的2002年如何战胜Amazon和Ebay中提到,它其实就是描述这些内容的另一种方式,这种方式下机器可以识别,具体方式虽然不是十分清晰,但是逻辑上,其实跟在你在学校里面学习的方式没有什么两样:

-如果A是B的朋友,那么B就是A的朋友;

-张三有一个朋友叫李四

-因此,李四将有一个朋友叫张三

-李四有一个朋友叫张三

-那么,张三会有一个朋友叫李四

就是这么简单。

在互联网上,我们把内容放在一些定义好的XML标签指定的文件里面。然后会有程序自动收集这些内容,通过这些简单的规则,进行分析。所有区别于现在操作的
就是,在搜索的时候,服务器的程序会综合更多的因素,进行更复杂的判断,理解你的请求的真实意义,然后给你最准确的内容。

例如,你输入只说,他们准确的判断出,你要找的是我这个人,而不是错认为,你又说了一句什么话,或者给你一个许如芸的“只说给你听”的歌曲应付一下你。


4,Google怎么实现Semantic Web?

Google究竟怎么实现SW,在Peter Norvig的文章SW可以做什么,不能做什么已经可以看出些端倪,Norvig在今年一月份(或者更早)都已经想好了应该怎么启动了,或者说,应该怎么逐步打造SW。他谈到了四个问题:

1)先有鸡还是先有蛋的问题,

这个问题涉及到如何建立所需的信息,因为要必须有有组织的信息才能打造相应的工具,而如果没有相应的工具,怎么把信息放到组织里面去呢?

这个问题只说要展开说一下,其实google并不是要建立一个Tim
Berners-Lee等人理想中的SW,因为其实google其实只需要索引SW中的信息即可,因为如果SW建立起来,索引是一件简单的事情,甚至产品
实现上面比google现在的搜索引擎更简单,技术要求更低。然而,问题就出来了,是先建立一个SW,然后来索引呢,还是先索引整个互联网,然后再生成把
它放到有组织的SW里面去呢,这就是为什么google打造SW时遇到了先有鸡还是先有蛋的问题。

那么只说的猜测是,目前Google
base的作法是,目前互联网上的信息是很难组织,那么让用户提交有组织的信息到google,就能形成局部的SW。而这个局部的SW,就可以实现聚会服
务的描述、网站上关于时事的文章、二手车出售列表等等信息的精确定位,机器也就能够理解这个范围内的信息。


在Norvig后面的描述中可以证实只说的说法:

在正常情况下,定义语义的标准格式(schemas)似乎更好,但是,问题出在把什么内容放进这些标准格式,还有很多工作要做。

因为还有以下提到的几个问题,这些问题在把内容放进这些标准格式中的时候,这些问题同样会出现,而且,google不能把握住这些环节,或者从整个互联网
角度来讲,把握这些环节的公司服务或者工具太分散,无法形成标准,也无法保证安全和质量。Norvig举了一个google
news例子,在前一个晚上google
news一共索引了658个不同来源的新闻,google可以根据这些新闻页进行一个cluster运算,算出其中重要度最高的是Blair的新闻,然
而,如果google依据这些写入新闻的新闻源来做这件事情,则几乎是不可能的。

不过通过他们的页面上的新闻来索引计算出来的质量毕竟不高,所以google现在想到另外一个办法,也就是,让用户通过google
base的接口提交到google,提交的数据是定义好的一些数据标准,google来控制这个提交过程并更准确的判断提交的质量、spam等等情况,并
且可以将各种数据综合起来进行分析。


2)竞争问题,你有不同的和相似方法和工具可以选择。

这样子就无法跟踪用户行为的全貌。


3)Cyc问题,

Cyc是一个专业术语,讲的是通过广泛的本题作常识推理。这样说也许不太明白,举个例子就很容易了,例如“周杰伦”,这是一个人名,如果以错输为“周杰
论”,这时机器就识别不出来了,但是如果拥有了一个很大的词库,那么这个通过识别出“周杰论”可能就是“周杰伦”,那么这就是一个Cyc问题。如何在SW
中判断这些Cyc以识别出常识的判断,这是建立真正意义的SW必须解决的问题。


4)Spam,

垃圾,这个不用多说了。但是注意到,由于SW是精确匹配,并且要求根据意图来适配,所以对于spam要求更高。

顺便提及,Splog不就是Semantic Spam嘛。



5,Semantic Web与Web2.0

web2.0是tim o’reilly的概念,开始这个概念定义很模糊。应该是互联网应用的发展模式,催生了新一代的应用以及人们对于这些应用的理解方式和使用方法(这里谈到过这几个概念的分别)。国外也有人撰文web2.0会杀掉SW吗?,也有称Semantic Web 2.0。有很有趣的讨论。前一篇文章说得有点道理,web2.0是给少数人用的,SW会提供Accessiblity。Stefan Decker在这里补充了一下,Web2.0重“应用”,SW则是标准。这跟只说那边谈到web2.0是应用发展模式不谋而合。其实web2.0用来说明一种公司特性也未尝不可,不过你大声的说google是web2.0的公司,而M$是1.0的公司,确实有点怪。


当然SW也作了很多应用,例如美国东岸的几所学校,例如欧洲连Semantic weblog也搞出来了,deri也做了很多应用了。


另外,gnowsis也是另外一个狂想,只是我还没看懂它的结构图,为什么会有一个semantic web server在里面。



6,结语

还有几点:

本文并没有分析google为什么要做SW,只说想这已经用不着只说在这里分析。SW对于各种应用的好处是显然的。

Google对于SW的探索看似给予搜索引擎的,Norvig那篇文章下面也有人回复说,似乎google只是在搜索的角度看待SW,其实不然,因为互联
网是一个请求应答系统,是我们人为将互联网标准定义成一个url指向一个网页的,这是一个陈旧的标准,或者对于更高层次的信息获取来讲,并非是必要的。关
于信息适配的探索,其实google比任何其他人(谄媚呀)都高。

有人说,Google还是从信息组织的角度来看待整个互联网(google的信条就是组织信息),或者,它只是互联网的一个信息组织者,以后也将成为SW
的信息组织者。其实,从根本来说,互联网整个媒介都是信息,除了信息没有其他任何东西,当然你可以持有另外一个观点互联网应用才是主导,这到了最深处都是
殊途同归。

刚写完,发现keso的已经出来了:


联网提供了很多破坏规则的机会。门户新闻和搜索引擎新闻已经破坏了传统媒体的规则,分类网站正在破坏一些电子商务网站和招聘网站的规则。即将露面的

http://base.google.com/服务,很可能是一个更大的破坏者,它有可能笼络更多的个人内容提供者,进而改变互联网长期以来内容的组织

方式。

其实规则很简单,就是在得到最小的spam的情况下,获得最有组织并且方便组织的信息,google实现的局部SW当然有控制,然而,SW的目标,不是web2.0那样的应用,而是Accessibility呀。 这场革命如此quiet,甚至谈不上“规则破坏”。

(指Web Evolution causing a quiet revolution的quiet)

本文引用的大量连接都是英文链接,由于时间关系,不能将其中摘录翻译,深感抱歉。SW的很多文章并不完全是很技术化的话题,这些材料对于国内互联网水平的增长是十分有益的。


再次强调一下本文的观点:很显然,google base是google在SW的试验和测试。而SW就是google的本垒(home base)。



footage:
语义网本体论:可以做什么,不能做什么-chn(blog中文翻译)
 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 
tag.sayonly.com


40条评论

  1. 很高兴只说关心起SW了。昨日正好写了一些关于SW和搜索引擎的文字,贴在这里算是凑个热闹吧。

    传统的搜索引擎只是把网站和网页内容当成毫无结构的文本,只进行非结构化的全文查询。而越来越多的网站呈现出来的内容无法反映其底层结构和层次,网页只是应用的外表,随着越来越多元数据标准和开放协议的应用,越来越多的应用以XML形式呈现数据,甚而由于语义万维网的开放要求而能够呈现底层的应用模型和数据结构,这就会给目前的搜索引擎带来革命性的变化,即产生更加智能的、基于语义的搜索引擎。而这种搜索引擎极有可能是由分布式搜索引擎簇提供个性化的查询、浏览(Web2.0时代的搜索引擎),其功能需求的人机界面也将是目前传统的浏览器所无法满足的。许多语义Web的“语义”无法经由传统的浏览器读到(浏览器对语义标注没有感知,所以才有RSS阅读器、FOAF插件等工具的开发)。

    尽管目前还十分缺乏“杀手级”应用,但是开发诸如带PiggyBank扩展的浏览器是浏览语义万维网应用“显性化”的第一步。

    语义Web的发展并不如人们的预期,就像语义Web专家James Hendler 说的那样,a little semantic goes a long way。万事开头难,工具与应用就好比鸡与蛋的关系,特别是人们对一大堆标准规范还不能一致理解,而且由于一些理想主义原则的驱使,这些标准规范还不足以搭建完整的应用。

  2. 早知道k博要来,这文儿得换个写法。不然让k博在365key上评我只关心google。其实偶在谈tags时说tags是“小众游戏”的时候就搬过sw出来,在不久前网事钩沉中也谈到过sw,

    http://blog.donews.com/sayonly/archive/2005/08/31/534094.aspx

    那边可是硬件+应用+标准的web革命了,再也找不出更好的标准了

    不过不管怎么样只说也不敢谈到ontology,那应该是k博的研究concentration吧。正好只说在写到Norvig那四点时把第二点competing ontologies问题随意写了两句,*blush*,而且还把第三点的“本体”错写成“本题”,让只说此时后悔为了赶时间的不严谨态度,恨不得找个地缝钻进去。

    呵呵。顺便提醒一下Kevenw,从bokee转到wordpress都没有一个blog entry提到,让只说这种只在阅读器里面读文章的人以为k博休笔至今。真是该打打屁股了。

  3. 希望google赶快推出来。

  4.   Google Base已开通。验证了之前的种种猜测,Google检索了所有的Web还嫌不够,现在已经开始鼓励用户按自己的标准来创建更多的内容用于检索(让Adwords有更多地展现机会?)。初版的网站虽然还有不少需要改进的地方(比如还没有中文界面,AJAX还存在不少问题),但已经足以看到他的创新,一个基于Semantic Web(语义网)的数据库正在被建立。   Google Base对ebay或taobao的威胁有多大,这很难说,我一直认为ebay这种C2C网站长久建立起来的这个信用机制和安全的支付系统(虽然有传言说Google自己也要做),是单纯的搜索所不能替代的。同样,社区化的分类广告网站带来的信任感和归属感,也是一个冷冰冰的数据库所做不到的。希望Google Base真的只是"Help the world find your content.",而不是要抢掉其它网站发布信息的权利。(这样又可以大赚一笔ebay的广告费了)…

  5. 今天可以用了

  6. nature上面一篇关于google base的评论,翻译在下面:

    http://jacquette.cnblogs.com/archive/2005/12/17/299282.html

  7. 听说 Google Base 找东西很管用就上来了,看看别人是不是真能看到自己的产品:汽车方向盘套,MP3,女孩饰品...

    http://stores.ebay.com.cn/carthingszy

    http://shop33418492.taobao.com

  8. 路过,顶顶…

  9. Social Graph ??? Semantic Web » Beyond Search – ????????????????????????????????????????????????????????????

发表评论

评论也有版权!

无觅相关文章插件