-

sayonly.com                

english |

other
       wiki的优势
 

只说在Google Home Base
文中谈到了semantic web(语义网,以下简称sw),并且认为google
base是google在sw的试验,在只说下这个结论(或者说是预言)的时候,国外blogosphere和媒体尚未有将google
base与sw联系在一起的讨论,到现在,已经一片火热了,甚至已经出现了与之相关的应用。wikipedia与sw的关系,国外已经讨论非常多了,也有
专门的论文,这里简单引述一些观点,并且,分析一下wikipedia(或者也可以说是所有wiki)在实现上面的优势。



1,问题提出


在今年8月份wikipedia组织的会议wikimania上,德国Karlsruhe大学的人工智能学院提交了一个题为"wikipedia和sw,
缺失的链接"(参考介绍材料)的报告,是以wikipedia的一个问题开始的,这个问题是,如何得到60年代以来不是肖恩.康拉利主演詹姆士.邦德(007)的电
影。显然wikipedia已经整理了这个内容,只是不能自动的将它找出来。这个问题给wikipedia提出了更高的知识结构化的要求。



目前,wikipedia是一个分类系统,类似于Open Directory Project,这是对互联网站点的分类系统;wordnet
这是一个英文分词的数据库。而wikipedia是对于百科知识的一个分类系统(category
system),一个词条对应相应的解释,同时wikipedia提供一个查询系统,可以用来查找感兴趣的知识,这个查询的实现机制并不是类似于
google的全文索引方式。



显然,wikipedia因为其组织方式已经具备了基本的文档结构化,词条对应内容,内容中又涉及到的词条,对应于另外的内容,于是这些内容通过链接的形
式形成一个结构化的系统,想象一下,一个词条的内容中包含了多个词条,这些包含在内容中的其他词条,就构成了这个词条的相关知识。如果绘图,就会是一个发
射形状的结构图。



wikipedia的这个特性使得以完美知识结构的系统为己任的工程师和研究者们将它跟语义网(sw)联系起来,并赋予知识联想以及诸如詹姆士.邦德的电
影智能查找的任务。这一定程度上承认了wikipedia的知识组织确实有它的价值,另一方面,也可以说是wiki组织方面拥有其他网络应用所不具有的简
单、结构化的特征。



2,再啰嗦一下semantic web


google home base文章里面已经谈过一些概念和应用了,感兴趣请查阅那篇文章。这里补充几点。



我们可以初浅的认为sw解决了这样两个问题:一是提示和联想,就是查阅一个内容时,自动提示和联想相关的内容,当然最基本的提示现在的搜索引擎也能做得
到,例如搜索"只说给你听"时,提示到哪里去下载许如芸的这首歌曲,或者提示你到哪里购买许如芸包含这首歌曲的cd(当然这可能是一个广告,呵呵),不
过,更进一步就做不到了,例如根据音乐联想到演唱会,许如芸要开演唱会了,给你一个演唱会的链接。音乐和演唱会是两个不同的内容,除非内容良好的结构化,
否则即使建立起这两者之间的联系,也会胡乱搜一气,就像询问一个只是算术很快的天才儿童却总是答非所问一样。



另一个是智能化搜索,智能化搜索可以分开成两个部分,一是对提问的理解,这个暂不考虑,虽然对提问的理解可能会需要sw的知识库。一是理解了搜索意图之后,取得搜索的内容,这要求搜索源高度结构化,就是sw解决的问题。



sf(开源社区)上有一个名为semantikos的浏览器,当你打开一个sw的文档时,会给出它指定的相关链接,如图示

semantikos

sw本身可以理解为这样一个模型,至于它在实际问题中,是不是需要根据用户意图或者对用户使用记录分析用户的用户喜好并对给他的相关链接进行调整,或者根据用户意图对结构化的内容进行匹配,就是实际应用的事儿了。



不过,即使w3c组织,也更期望有sw应用而非更系统的理论支持。



3,wikipedia与semantic web相关的研究和应用

wiki早期与sw相关的研究很多,早在2001年,就有人搞了个rdfwiki出来,这个rdfwiki不仅仅可以结构化文档,而且还可以将文档导出到一个N-Triples(w3c的结构化标准)的结构化文档。




上次google home base文章提到的gnowsis的狂想,其实包含了一个wiki方案,那个sw项目发布于2003年,将wiki页面等同于观点(idea),等同于观念(concept)。这个gnowsis一个人自己做,而且在fork mediawiki,所以大家都不大支持他。



ontowiki,这个提法很多了,只说见到最早的是cob project(Collaborative Ontology Building),在2003年左右就有一张解决wiki/blog/p2p的系统结构图,只说还是很喜欢这个图的。
ontowiki

似乎在后来wap/rss方案都由此衍生而来,后来在sf上有专门的项目,不过支持的人并不多。





wikimedia跟sw相关的最早的项目似乎是Wikispecies,不过由于种种原因难产,其后Erik Moeller还称那时想法还不成熟,之后就有Wikidata,是新结构化的数据库的项目,Erik Moeller和jimmy wales在在2004年9月开始
讨论
并实施这个项目,不得不承认Erik Moeller还是有些水准的,这个项目已经有几分google base的神韵了,不过这终于还是基于wiki方式的数据库,却没有Peter Norvig的眼光和推动力。



今年8月wikimania会议中,sw的讨论形成了一个中心,于是在会议期间,也就是8月7日,Semantic MediaWiki作为一个project启动了。

semantic mediawiki



9月2日,在sw的w3c html邮件列表中提交候选。9月7日,在sf建立了一个开源项目semediawiki。10月7日,
demo




4,wikipedia如何实现semantic web


这里有一份wikipedia给出实施计划,说明了wikipedia具体将做什么,以及如何做,是根据wikimania会议的讨论修正而来。



已确定MediaWiki的扩展需要在wiki文章中扩展语义的评注。

1)文章之间的联接评注依靠可配置的关系(链接方式)

2)以简单的赋予结构化属性的数据值(simple data-values)评注文章

3)支持在不需要预先配置的情况下,使用各种数字属性的物理测量单



也就是说,在现有wikipedia以及其他项目编辑管理方式的基础上,扩展语义的属性。在具体实施中,首先是引入一个管理系统,这个管理系统为用户编辑
时增加方便的功能,例如搜索、提示;接下来,按一定的语法设置文章之间的链接,从文章中直接萃取出链接信息是技术可以实现的,但是,决定哪些需要链接的是
编辑者,并且,注意到,这些链接信息是独立于文章的。



在这点上,有可能形成针对某些词条的模板,例如国家或者地区的词条,这可以用结构化的链接和模版来表示。



接下来,就会考虑在线的查询的工具了,提供结构化的输出以及开放某些接口。



然后以同样的方式,就可以提供基于新数据的内部服务,这些服务可以基于已经存在的工具,或者以特有的工具来体现社区中存在的链接等特殊数据带来的优势。w3c这里提供一个称为sqarql的语言,也可以实现这种语言。更进一步,可以提供一个简化的基于英语的查询语言使查询更为友好。



5,semantic mediawiki与google base比较


semantic
mediawiki包含了wikipedia以及相关项目,在wikipedia原有编辑功能的基础上,提供了更多一些结构化的、语义的内容,这些内容可
以是独立于现在wikipedia的文章,也可以替换现有的wikipedia的文章元素(例如链接)。从看到的材料来看,比较理想化,也没有仔细分析过
可能出现的问题,例如spam,规范不统一等问题。



不过wikipedia本身是一个互联网的独立的应用,用户的输入输出(这里也可以看作是内容的产生/内容消费)都可以进行控制和追踪,而且wikipedia本身是词条对应知识的方式,本身简单而结构化,再加上wiki的文化支持,确实令人期待。



google
base应该是google把控制从内容消费转到内容产生环节,显然Norvig对sw的理解要深刻得多,他在今年1月份都已经设想好了google如何实现sw,他提出了sw的4个实现的问题,所以这个google base的应用,可以称为google的home base(本垒)。因为只有控制了内容产生环节,才可能最大限度的防止spam,更进一步提高搜索和数据请求的质量。sw也并不是只要数据结构化就完了,想来大家都记得以前html的header段有一个meta的数据,可
以用来指定一个html文档的数据类型,但是众多的spam使得它并不可信,以至于搜索引擎不再将它作为搜索排名的参考。



所以,只有控制了内容产生环节,才能通过技术手段来甄别可能的作弊,以及用户意图,不统一规范的问题等等。



如果只说有什么建议给google的话,那么可以建议google
base推出针对某个特殊方面的解决方案,而不是仅仅一个base,例如,针对wikipedia的解决方案,并提供关于它的搜索功能,第三方工具,那么semantic mediawiki/wikidata这样的项目就不用做了。



6,总结


稍微总结几点,

wikipedia以为组织方式简单、结构化,是最可能实现局部sw的方案。结构化知识有利于实现输入输出,更利于对于用户行为的监控。



在google home base文章中,只说提到google开始控制互联网内容的产生,只说认为,只有对于内容提交有控制,才能保证sw的各个语义环节质量。



7,介绍材料


最后介绍几篇材料,有识之士可以翻译一下:

Wikipedia and the Semantic Web — The missing links(pdf

这个应该是在这次wikimania会议上面的

RDF primer

Semantic wikipedia(pdf

the Semantic Web in one day(pdf

看完这篇,你就知道为什么只说以前说"其实欧洲人比美国人更急于想实现SW"。

Ontology is Overrated: Categories, Links, and Tags

Semantic MediaWiki/Background: Ontologies and the Semantic Web(需要代理)

w3c的semantic web介绍

rdf的sparql查询语言的描述

关于ontowiki (pdf)-奥地利的大学研究成果


 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com


7条评论

  1. "即使w3c组织,也更期望有sw应用而非更系统的理论支持。"

    唉,这点可能是现在做SW的最头疼的一些事情吧,不过没有真正的semantic web数据基础存在,再有想象力,也无法构建真正实用的应用系统。

    MIT的Piggy-Bank可能是一个比较贴近实际的例子,虽然他构建的是semantic web browser,不过提供scrapper的方式来同Google map结合起来,我觉得挺有想象力的,不过也发现真是很难构建其他更丰富的应用。我试过写一个rss reader的screen scrapper,不过PB的体系结构限制了太多,无法往一个真正的reader应用上去靠,麻烦啊!

    Universität Karlsruhe在SW方面是很强的,不过好像不是叫AI实验室,好像主要是Knowledge Management实验室在做这方面的研究,曾经妄想申请,可惜背景不够,呵呵。

  2. 修正一下,呵呵

    卡大主要做SW研究的是AIFB,就是 Institute of Applied Informatics and Formal Description Methods,是卡大CS系的下属学院之一,Knowledge Management是AIFB里面的一个Group。呵呵,目前在招研究人员和PhD Student,明年1月份截至,呵呵(不算小广告吧)。

  3. 哦,是AIFB,应该是我弄错了。应该是跟奥地利那几个学院混了?似乎是这样。稍后我来update正文。

    欧洲的研究比较激进一点,甚至那个qlogger.com都是他们的成果,对了,明天也许会谈一下这个结构化blogging,并分析一下可能在企业方面的应用。我个人认为企业blog都应该具备结构化的内容选项。

    piggy bank在是美国东岸的几所学校的研究成果,在google home base里面有提到,很强。

    nicotinestain在这方面是专家,其实,并不是我一个人认为google base的比较具有在实际中的应用优势。不过我相信多种资源的因素的综合算法,不如先针对单个资源来得快,这就要看google的产品策略了。

  4. 欧洲这方面走得确实是比较激进,看AIFB的项目好多都是欧盟直接支持的项目。

    呵呵,一直关注你这个系列,最早的Google Base那篇文章就让我受益匪浅啊,加油加油,呵呵

  5. 先八卦两篇,过两天继续wiki的优势那个系列。你过奖了。

  6. 这样的企业看起来更像是广告公司,而不是用户社区。这种本末倒置的做法在一开始就错误地将服务的主体和重心转移到拥有信息优势的商家和商业广告信息。在这样的系统中,个人用户成为系统的附属,成为其吸引商业广告投放的砝码。只能算数是在模仿craigslist的外表而非形神兼备。

  7. 博客——人物和话语

    [思考]大家做个WEB READER吧! #

    会不会产生一种情况,RSS提供者再也不提供全文了,只提供半文,或者干脆就提供文章标题,到后面,所有的RSS输出会不会变成只有网站URL地址呢?因此,游戏规则很重要,RSS需要游戏规则,作为内容和读者之间的RSP/RMP非常重要,两边谁都不能得罪。

    投入写博大军一周年 #

    我想如果服务商可以提供一个这样的服务就比较有趣了:提供个人一段时间内每周写博频率以及每篇长短的曲线图,并且有那一段时间你用的最频繁的词汇。…

发表评论

评论也有版权!

无觅相关文章插件