2005年12月31日

-只说 

sayonly.com                

english |

other
       wiki的优势
 
昨天写了microformats(微格式),没有说完,时间就不够了。老冒在blog中post了他的想法,精研甚深,很是敬佩,今晨就趁有点时间,探讨一下SNS的语义化,并且臆测一下SNS方向,当然由于这样已经不太像传统的SNS,那么冠一个"泛"字在前面。想来正是老冒和在365key收录了只说昨天的文儿的undersound感兴趣的话题。


1,SNS

sns是社会化网络,只说了解不深,但是还不至于像cnsns那样弱化了整个系统,摆出试验的架势。sns代表了允许用户形成各种各样虚拟联系(or关系),这种联系常常可以转化为现实中的联系。这种联系产生了这样一些问题:


隐私问题,用户会设置或者生产信息,或者用户行为会隐含产生相关的信息。这些信息中,多少用户信息是公开的,多少信息在什么范围(例如圈子)内可以查看,又有多少信息是可以用于SNS内部联系的参考。若公开太多,则容易造成隐私问题;公开太少,又会影响新联系的建立。


用户行为,服务提供了多少功能,这些功能组合成多少用户行为。用户行为会产生什么信息,以及会对用户的联系产生什么影响。


2,SNS的语义化

如果把用户看成一个个的节点,代表着一个个的机器后面的人,为了促进用户间联系,必然形成机器可识别的标签,也就是结构化或者语义化的内容。


语义化的内容不仅包括用户资料,用户朋友的信息等等信息,还应该包括用户创造的信息,包括用户写的blog,讨论的问题,分享的内容。正因为用户间的联系和分享的动力,SNS更容易产生结构化内容。


SNS的语义化不仅仅在于该SNS应用内部,还可能存在于这个SNS应用之外,因为在互联网的结构化信息越来越多,blog、个人信息中心、email、im等都渐渐成为
代表个人的互联网节点,SNS的语义化也是与互联网的其他节点进行沟通的需要,依靠机器可识别的信息,扩展到SNS范围。


3,microformats和sns

这里指的sns语义化不是通常意义的semantic network,后者是一种数据描述方式,类似于sw。这里继续昨天的话题,简单列举几种microformats及其应用,不过只说没有深究,只是简单的联系一下。


XFN(Xhtml Friends Network),这是一个简单的描述用户关系的方式,可以使用链接表示朋友关系,通常可以用于blogroll以及其他朋友链接的位置,这里提供了一个简单的生成工具,可以用来指定一个阅读blog是朋友、同学还是爱人,是不是见过面,以及其他的关系,这个关系可以由机器收集,用于sns内部和外部。


hCard,文件格式(xhtml,rss等)的个人信息交换,某些特殊的电子名片,包含email信息,可以通过互联网交换,可以包含名字,照片,电话等等。参考这里


4,blog 与 sns

不得不承认blog已经渐渐成为了一个大的sns,在不断的结构化和标准化后,渐渐形成对于现在sns社区的合围。成熟的sns,是不是可以参与这个过程,并促成这种结构化和标准化的形成,并且基于这些基础,形成更广泛的松散结构,是值得探讨的。


可以推行标准,或者坚持使用通用标准,提供blog结构化和标准化的工具,并且促进从sns内部到外部的联系。也就是说,可以视一个结构化良好的blogger为社区内部的用户,只是并不附属于sns,但是可以参与sns内部的圈子和团体,甚至可以拥有某些用户行为。如果现在不存在结构化良好的blog,那么坚持以社区服务为吸引力,引导blogger或者其他BSP形成结构化。


可以提供聚合服务,收集现有这些结构化和标准化内容。如果现在没有这些内容,那么以聚合服务,吸引blogger或者BSP提供或者产生结构化内容。

可以提供通用服务,只要可以识别id,例如mail发出来的信息,均可认为是可信赖的信息。
 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月30日

-只说 

sayonly.com                

english |

other
       wiki的优势
 
今天准备写microformats(微格式),朋友跟我说,你去看一下zheng/webleon的文章,只说通过搜索从订阅中把文章一篇篇找来看了,发现不仅有定义,有系统的介绍,甚至还发现了sns相关的FOAF(friend of a friend)的介绍都很全面,还有跟老冒他们原来的讨论,关于sns原来的理论基础的那些讨论,关于yoyo为什么失败的讨论,原来并不是有人介绍过这些概念,而是当时多么激烈的话题,多么激动的讨论,时间都会慢慢将它埋藏起来。


这就是只说为什么坚持写系列,为什么用一系列文儿试图将一个问题关联的问题都发掘出来,为什么坚持在文中大量的引用来自于国内优秀blog、国外的材料的原因,也许在一年后,或者十年后,只说这个blog所含有的价值,将慢慢显示出来。


如果只说更牛一点,更牛哄哄一点,可以将这些系列文章,或者其引用的材料,都用一定格式的标记,例如目录、标题、链接,给标记起来,让聚合只说文章的服
务,都能识别它的意义,并把它们用另一种方式组合起来,这就形成了所谓的microformats(微格式)。对,微格式就是没有什么特别的含义,只是对
于数据的一种组织方式,至于那些“数据在思索”等等溢美之词,都是我们加上去的概念。


只说在一段时间之前介绍过technorati的工作方式,technorati是一个基于标签(tags)的搜索引擎,他可以识别你在文章里面标记的标签。我们可以简单回忆一下它靠什么查询到你的文章中设置的标签的。可以看到,technorati要求你在文章中加入一句话

<a href="http://technorati.com/tag/sayonly" rel="tag">sayonly</a>

这句话显示在网页上的效果是这样:


不影响你的文章显示效果,但是其中黑体的部分,是technorati所需要的,黑体的“sayonly”表示这里指定的标签名,rel=“tag”表示
这是一个technorati所需要的标签。理论上讲,链接前面的部分可以去掉,也可以换成自己的链接,如果你不希望读者看到这个链接,那么也可以把
“>sayonly<”两个尖括号中间的字去掉,页面上就不会显示了,但是technorati仍然会知道你这篇文章是标记了标签的文章。


这就是一个微格式的应用。如果举这个例子还不足以说明它的接受程度的话,那么我们可以考虑考虑google的对链接nofollow属性,它也是使用rel标签指定的,在某种程度上也可以看作是一个微格式。


微格式其实是由technorati、CommerceNet组织支持的一种数据格式,典型应用包括XOXO应用(odeo等就是支持这个格式发布的),以及technorati的hCalendar应用。


一般涉及到微格式的讨论,都没有将对微格式的讨论以及微格式应用的讨论分开,例如,微格式可能产生的信任问题,以及数据不全面的问题。


微格式属于隐含的元数据,不由人来干涉,而是机器(程序)读取和收集,就像原来在html的header一段中的元数据一样,信任问题来自于无法甄别出可
能的作弊,因为微格式独立于页面显示的内容,用来指定内容的一些属性,而且,这个属性的产生(微格式的产生)是不可跟踪的,所以它不可信任。就像你进入一
个宴会厅,有一个牌子可以标记你的名字,你可以叫张三,而你为了便于识别,你可能把你想到的名字全部标上去,张三李四王二ma子。


数据不全面来源于数据源分散,例如technorati的标签,donews的blog并没有给只说方便的工具,所以只说一般是不自己那么麻烦来打标签。
那么其他人,例如keso(举例而已,如果说中,纯属巧合),可能比只说勤快一点,每天都很勤奋的打标签,如果你很爽的用标签跟踪keso的内容时,
keso某天突然希望偷懒一下,那么结果就是你跟踪不到了。所以,这个应用的数据就不全面。


时间关系,先到这里了。
 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月29日

-只说 

sayonly.com                

english |

other
       wiki的优势
 
最近在看digital web以前的文章,恍然一梦,发现以前他们标准提得很多,现在是具体的实现方式、架构,注意到这点之后,才又去对比一下,人还是原来的人,刀还是原来的刀,连现在这个网站现在的广告,nick finck很久以前也是为这里写文章的,是典型的设计师,非常细节导向(detail-oriented)。


这就联想起昨天的donews与mop(或者说千橡)的合并,比较官方的消息都在强调,原风格和原则不变,xixi。不过,质疑的声音当然很多,就像只说这样试图置身事外的都在这里忍不住说:donews+mop=牛扑,确实够轻浮的。blog中当然众说纷纭,除了象zhanbin那样试图用那种标题
点眼球(不是吧)的外,更多的说到的是money rules。其实谁都知道money
rules,但是谁也不能彻底贯彻。像keso这样偶尔还义气一下的更不可能了。只说奉劝大家的是,现在不是凑热闹的时候,因为keso,liuren确
实太亲民了。人非草木,虽然不直接涉及到你的利益。我想换了是你,要做这么重大的决定,肯定是心里百感交集的。众人当然是喜欢看热闹,但是尊重他们,等他
们决定做完了再开始闲话,似乎并不是很难做到。


只说其实并不信公益,不信独立团体,只信市场。只有健康的市场会给人公平的环境,市场从不失灵,有时候,只是看得不够远,并非是市场或者资本的错。也许陈
一舟想得够明白,能够让donews继续独立发展,这可能本身就是谈判条件之一。刘韧本来就不是一个特别细心的人,连5G会议的录音下载,都是要安装他们
自己的播放器。donews在摊子渐渐增大的时候,没有运营实体的运营本身都将存在问题,更别谈发展了。但是只说相信不管他们最后谈判结果如何,对于刘韧
和keso都是有遗憾的(12)。无论如何,我还是觉得刘韧和keso这么做,未必会让donews沦陷,相对于fang以及其他创业者来说,他们毕竟做了五年,不至于会要做急功近利的事情了。


还是digital web上的文章更重要,只说发现别人写文章确实很有天份。例如语义内容的增长,比feedburner关于feeds的思考
文章要早很多。如果有中文的blog写这样的文章,写它十几篇,也算是争气了。可惜连只说也写不了这么深入浅出,虽然那一篇的topic本来是只说最有把
握写的。不过即使不能实践,这个文章还是非常让人激动的。大概三年以前做semantic
web研究,那时候的web跟现在根本不一样,没有那么多的开放接口,没有那么多的RSS,仿佛只是TBL点了一支蜡烛,现在看这篇文章可以说是对TBL
的肯定。hehe, 当然了,如果不了解或者不接受semantic
web,web本身发展也不会有什么不同。所以说TBL与其说是个架构师,还不如说是个天才预言家。这其实很关键。因为市场越来越细分,不可能再有一呼百
应的局面,但是如果总体趋势已经这样确定,那过十年不管有没有TBL在促进,web都会演化成Semantic web。


奇怪了,这些人真的能写出来这么具体的文章,而且都非常有说服力。其实我觉得中文的blog的问题之一就是没有说服力,大家都关注的焦点,都能阐明自己的
观点,但是似乎都不能说服人。就像本文也不能说服你不闲话donews一样。其实,大家也许都有一个很好的工作,很值得做些边缘的思考,就像
semantic web,就像wiki的优势。完全不需要那么纷纷绕绕,或者担心这里变成牛扑。
 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月28日

-

sayonly.com                

english |

other
 
八卦一下,这是一个关于4的游戏,当然并不是有人邀请只说去玩,而是在tom tomorrow那里看到他正在玩儿这个游戏,这个游戏类似于怪癖游戏,每个人说出自己与4相关的信息,包括,一生中做过的4项工作,你生活过的4个城市等等,并且把这个游戏传递下去,给4个你认识的朋友,很有趣。


lj的music
baton到怪癖游戏,到现在他们玩的那个问题接力赛,到game of
four,呵呵,人都是社会的动物。这个本来在lj内部传播的小游戏,现在成了blogger们大串联,瞬间就展开成一张大网,认识的,不认识的,蔓延开
去。这个tom tomorrow是salon的漫画专栏作家,他在blog上玩这个接力游戏也玩得蛮起劲儿的嘛。tom
tomorrow指定的继续接下去的人,bob harris是BBC的DJ,august pollak 是美国校园新声的网管。


不过tom
tomorrow没有用链接,或者trackback,显然是私下里通知的,这说明什么?外国人的blog比中文的还是谨慎多了,或者说,他们blog的
社会关系是建立在实际的社会关系上。只说本身觉得去留言/链接一个陌生人是不太礼貌的事情啦,中文blog好像没有这个忌讳,中文blog的各方面都比较
胆子大啦,包括只说本人。


只说有时候就想,那么多国家,只有中国的blog名人出的比较多,其他文字的blog都是名人写blog,中国是写blog出名。当然美国也有,但是这些
人永远都不会上nytimes的,在中国,二线的媒体介绍blogger的可不少了,也许是中国对于传统抛弃得比较彻底吧。


不过文化差异必然存在啦。提起文化,就想起业界新闻还是还是名人文化,是写blog出名还是名人写blog。这样想着就突然看到tom
tomorrow那篇文章右边有一个darrin bell的《Thank God for Culture
Clash》,肯定是tom知道只说要说这个,专门放了个介绍在那里,仅从字面理解,就是这个culture clash啦,呵呵,还是不要多想的好。darrin
bell是一个时事卡通家,amazon有这本书的作者签名版卖。


对了,又想起那个game of four其实就是中国的麻将,应该是麻将的一种玩法。

别多想了,明天继续wiki的优势
 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月27日

-只说 

sayonly.com                

english |

other               关于习惯的总结
 
12月16日,只说提到google music search(音乐搜索)发布了,google暂时没有跟apple itunes合作。不过到现在为止,仍然没有看到中文blogger们对这款产品的review,这很奇怪,难道大家都忙着写年终总结,忘了这事儿?


只说先来review这款产品,当然只说不是review专家,难免会有遗漏,而且只说惯于猜测,喜欢做“福尔摩斯”,在review产品的时候不臆测一番,那简直就是太太……太损失了。


16日那天的提到暂时没有跟apple itunes合作的断语来自于siliconvalley
压根儿不要相信他们(xixi,其实可以理解本文在为那天的轻信补漏来了),鬼才相信google没有从那些音乐商店拿到分成,
siliconvalley根本都是鬼话。其实itunes, MSN music, Real
Rhapsody,早就是google砧板上的肉了,这里先按下不表,后文再说明google想干什么。


google这款音乐搜索的产品和一堆网上商店合作,图片直接用图片搜索(images.google.com),新闻直接用新闻搜索(news.google.com),只有音乐的review另做的页面,例如这个搜索,就有两种来源的音乐review。


1,ciao

(注:不习惯阅读url可以跳过)

http://www.google.com/reviews/url? q=http://cd.ciao.co.uk/Pretty_Hate_Machine_Nine_Inch_Nails__40414/TabId/2


2,dooyoo

http://www.google.com/reviews/url? q=http://www.dooyoo.co.uk/music-records/pretty-hate-machine-nine-inch-nails/


罗嗦一句,阅读url是一个好习惯,一个url上面能看出来很多内容。


为什么google会挑ciao和dooyoo这两个源,只说估计是他们还没有谈完,估计一家家来买。


google音乐搜索包括两种来源,一种是网上用户review的站点,另一种是像rolling stone
种主流媒体的review。他们的review其实很多,只是这些唱片,在这些源里没有review而已,比如说NIN的唱片,就没有主流媒体
review,只有其他用户站点的review,不过如果搜索metallica(一个乐队)等的话,主流媒体的review就非常多,目前还没有看到一
些独立媒体,例如pitchfork(和它合作的店叫做insound),不知道是google还没有把这些独立媒体收买,还是他们就不打算包括独立媒体。恩,看到EW,google好厉害呀。不过如果只包括Rolling Stong和EW的review,显然会使得google的音乐搜索趋向主流。


最奇怪的是,这里这么多review的源,居然没有看到过一个amazon的,也没有all music guide
缺少amazon作为购买唱片来源也许说明google music
search就是想要取amazon而代之,缺少allmusicguide这样全面的review站,也许说明google的music
search并没有在结果挑选上下太大功夫。如果明年还不完善,
就只能用google groups讨论来弥补了,但是那显然将是google music search的最大遗憾 (你能想象google
movie search不包括imdb的结果吗?那可能连rotten
tomato都要偷笑了)。商业契机往往和文化核心背道而驰,目前看来所谓文化(主流和非主流的)可能并非大家搜索重点。


好,分析结束,结论如下:

google music search就是想要取amazon而代之,至少目前给了我们这个傻乎乎的印象。



ps:显然大家的年终总结还没写够,其实2005年毫无可总结之处。每年都会发生那么多的事情,死那么多人,再客观的总结也都不能避免下一年少死一些人嘛。对了,blogger们倾向于文化式总结,是否从另一个侧面说明了blog是非商业的,哈哈。
 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月26日

-

sayonly.com                

english |

other
       wiki的优势
 

只说在Google Home Base
文中谈到了semantic web(语义网,以下简称sw),并且认为google
base是google在sw的试验,在只说下这个结论(或者说是预言)的时候,国外blogosphere和媒体尚未有将google
base与sw联系在一起的讨论,到现在,已经一片火热了,甚至已经出现了与之相关的应用。wikipedia与sw的关系,国外已经讨论非常多了,也有
专门的论文,这里简单引述一些观点,并且,分析一下wikipedia(或者也可以说是所有wiki)在实现上面的优势。



1,问题提出


在今年8月份wikipedia组织的会议wikimania上,德国Karlsruhe大学的人工智能学院提交了一个题为"wikipedia和sw,
缺失的链接"(参考介绍材料)的报告,是以wikipedia的一个问题开始的,这个问题是,如何得到60年代以来不是肖恩.康拉利主演詹姆士.邦德(007)的电
影。显然wikipedia已经整理了这个内容,只是不能自动的将它找出来。这个问题给wikipedia提出了更高的知识结构化的要求。



目前,wikipedia是一个分类系统,类似于Open Directory Project,这是对互联网站点的分类系统;wordnet
这是一个英文分词的数据库。而wikipedia是对于百科知识的一个分类系统(category
system),一个词条对应相应的解释,同时wikipedia提供一个查询系统,可以用来查找感兴趣的知识,这个查询的实现机制并不是类似于
google的全文索引方式。



显然,wikipedia因为其组织方式已经具备了基本的文档结构化,词条对应内容,内容中又涉及到的词条,对应于另外的内容,于是这些内容通过链接的形
式形成一个结构化的系统,想象一下,一个词条的内容中包含了多个词条,这些包含在内容中的其他词条,就构成了这个词条的相关知识。如果绘图,就会是一个发
射形状的结构图。



wikipedia的这个特性使得以完美知识结构的系统为己任的工程师和研究者们将它跟语义网(sw)联系起来,并赋予知识联想以及诸如詹姆士.邦德的电
影智能查找的任务。这一定程度上承认了wikipedia的知识组织确实有它的价值,另一方面,也可以说是wiki组织方面拥有其他网络应用所不具有的简
单、结构化的特征。



2,再啰嗦一下semantic web


google home base文章里面已经谈过一些概念和应用了,感兴趣请查阅那篇文章。这里补充几点。



我们可以初浅的认为sw解决了这样两个问题:一是提示和联想,就是查阅一个内容时,自动提示和联想相关的内容,当然最基本的提示现在的搜索引擎也能做得
到,例如搜索"只说给你听"时,提示到哪里去下载许如芸的这首歌曲,或者提示你到哪里购买许如芸包含这首歌曲的cd(当然这可能是一个广告,呵呵),不
过,更进一步就做不到了,例如根据音乐联想到演唱会,许如芸要开演唱会了,给你一个演唱会的链接。音乐和演唱会是两个不同的内容,除非内容良好的结构化,
否则即使建立起这两者之间的联系,也会胡乱搜一气,就像询问一个只是算术很快的天才儿童却总是答非所问一样。



另一个是智能化搜索,智能化搜索可以分开成两个部分,一是对提问的理解,这个暂不考虑,虽然对提问的理解可能会需要sw的知识库。一是理解了搜索意图之后,取得搜索的内容,这要求搜索源高度结构化,就是sw解决的问题。



sf(开源社区)上有一个名为semantikos的浏览器,当你打开一个sw的文档时,会给出它指定的相关链接,如图示

semantikos

sw本身可以理解为这样一个模型,至于它在实际问题中,是不是需要根据用户意图或者对用户使用记录分析用户的用户喜好并对给他的相关链接进行调整,或者根据用户意图对结构化的内容进行匹配,就是实际应用的事儿了。



不过,即使w3c组织,也更期望有sw应用而非更系统的理论支持。



3,wikipedia与semantic web相关的研究和应用

wiki早期与sw相关的研究很多,早在2001年,就有人搞了个rdfwiki出来,这个rdfwiki不仅仅可以结构化文档,而且还可以将文档导出到一个N-Triples(w3c的结构化标准)的结构化文档。




上次google home base文章提到的gnowsis的狂想,其实包含了一个wiki方案,那个sw项目发布于2003年,将wiki页面等同于观点(idea),等同于观念(concept)。这个gnowsis一个人自己做,而且在fork mediawiki,所以大家都不大支持他。



ontowiki,这个提法很多了,只说见到最早的是cob project(Collaborative Ontology Building),在2003年左右就有一张解决wiki/blog/p2p的系统结构图,只说还是很喜欢这个图的。
ontowiki

似乎在后来wap/rss方案都由此衍生而来,后来在sf上有专门的项目,不过支持的人并不多。





wikimedia跟sw相关的最早的项目似乎是Wikispecies,不过由于种种原因难产,其后Erik Moeller还称那时想法还不成熟,之后就有Wikidata,是新结构化的数据库的项目,Erik Moeller和jimmy wales在在2004年9月开始
讨论
并实施这个项目,不得不承认Erik Moeller还是有些水准的,这个项目已经有几分google base的神韵了,不过这终于还是基于wiki方式的数据库,却没有Peter Norvig的眼光和推动力。



今年8月wikimania会议中,sw的讨论形成了一个中心,于是在会议期间,也就是8月7日,Semantic MediaWiki作为一个project启动了。

semantic mediawiki



9月2日,在sw的w3c html邮件列表中提交候选。9月7日,在sf建立了一个开源项目semediawiki。10月7日,
demo




4,wikipedia如何实现semantic web


这里有一份wikipedia给出实施计划,说明了wikipedia具体将做什么,以及如何做,是根据wikimania会议的讨论修正而来。



已确定MediaWiki的扩展需要在wiki文章中扩展语义的评注。

1)文章之间的联接评注依靠可配置的关系(链接方式)

2)以简单的赋予结构化属性的数据值(simple data-values)评注文章

3)支持在不需要预先配置的情况下,使用各种数字属性的物理测量单



也就是说,在现有wikipedia以及其他项目编辑管理方式的基础上,扩展语义的属性。在具体实施中,首先是引入一个管理系统,这个管理系统为用户编辑
时增加方便的功能,例如搜索、提示;接下来,按一定的语法设置文章之间的链接,从文章中直接萃取出链接信息是技术可以实现的,但是,决定哪些需要链接的是
编辑者,并且,注意到,这些链接信息是独立于文章的。



在这点上,有可能形成针对某些词条的模板,例如国家或者地区的词条,这可以用结构化的链接和模版来表示。



接下来,就会考虑在线的查询的工具了,提供结构化的输出以及开放某些接口。



然后以同样的方式,就可以提供基于新数据的内部服务,这些服务可以基于已经存在的工具,或者以特有的工具来体现社区中存在的链接等特殊数据带来的优势。w3c这里提供一个称为sqarql的语言,也可以实现这种语言。更进一步,可以提供一个简化的基于英语的查询语言使查询更为友好。



5,semantic mediawiki与google base比较


semantic
mediawiki包含了wikipedia以及相关项目,在wikipedia原有编辑功能的基础上,提供了更多一些结构化的、语义的内容,这些内容可
以是独立于现在wikipedia的文章,也可以替换现有的wikipedia的文章元素(例如链接)。从看到的材料来看,比较理想化,也没有仔细分析过
可能出现的问题,例如spam,规范不统一等问题。



不过wikipedia本身是一个互联网的独立的应用,用户的输入输出(这里也可以看作是内容的产生/内容消费)都可以进行控制和追踪,而且wikipedia本身是词条对应知识的方式,本身简单而结构化,再加上wiki的文化支持,确实令人期待。



google
base应该是google把控制从内容消费转到内容产生环节,显然Norvig对sw的理解要深刻得多,他在今年1月份都已经设想好了google如何实现sw,他提出了sw的4个实现的问题,所以这个google base的应用,可以称为google的home base(本垒)。因为只有控制了内容产生环节,才可能最大限度的防止spam,更进一步提高搜索和数据请求的质量。sw也并不是只要数据结构化就完了,想来大家都记得以前html的header段有一个meta的数据,可
以用来指定一个html文档的数据类型,但是众多的spam使得它并不可信,以至于搜索引擎不再将它作为搜索排名的参考。



所以,只有控制了内容产生环节,才能通过技术手段来甄别可能的作弊,以及用户意图,不统一规范的问题等等。



如果只说有什么建议给google的话,那么可以建议google
base推出针对某个特殊方面的解决方案,而不是仅仅一个base,例如,针对wikipedia的解决方案,并提供关于它的搜索功能,第三方工具,那么semantic mediawiki/wikidata这样的项目就不用做了。



6,总结


稍微总结几点,

wikipedia以为组织方式简单、结构化,是最可能实现局部sw的方案。结构化知识有利于实现输入输出,更利于对于用户行为的监控。



在google home base文章中,只说提到google开始控制互联网内容的产生,只说认为,只有对于内容提交有控制,才能保证sw的各个语义环节质量。



7,介绍材料


最后介绍几篇材料,有识之士可以翻译一下:

Wikipedia and the Semantic Web — The missing links(pdf

这个应该是在这次wikimania会议上面的

RDF primer

Semantic wikipedia(pdf

the Semantic Web in one day(pdf

看完这篇,你就知道为什么只说以前说"其实欧洲人比美国人更急于想实现SW"。

Ontology is Overrated: Categories, Links, and Tags

Semantic MediaWiki/Background: Ontologies and the Semantic Web(需要代理)

w3c的semantic web介绍

rdf的sparql查询语言的描述

关于ontowiki (pdf)-奥地利的大学研究成果


 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月25日

-只说 

sayonly.com                

english |

other        wiki的优势
 
wikipedia称为自由的百科全书,使用wiki的组织方式,每个访问页面的阅读者,可以改动页面,增加词条。当然,你也会注意到很多类似的词,这确实让人困惑。


从wikimedia站点上可以看到这些词的解释(该链接目前需要代理访问),可以参考。为了描述wiki的优势,这里简介一下。

1,wiki,指每个访问页面的阅读者,可以改动页面,增加词条这种协作方式的站点。

2,wikipedia,维基百科,通过wiki组织方式完成百科全书的一个项目。

3,wikimedia,维基媒体,一系列相关项目的总称,包括wikipedia,wiktionary(辞典的项目),wikisource(资
源),wikibooks(书籍)等,这些项目都是在互联网上的协作项目,在wiki概念下,建立各种开放共享知识,其中最有名气的是
wikipedia。

4,wikimedia meta,有时也称为meta-wiki是用于讨论关于wikimedia的站点,也用来讨论mediawiki开发的站点。上面给的那个需要代理访问的链接就是出自这里。

5,metawiki,是Sunir Shah创建的wiki搜索引擎,跟wikimedia的meta-wiki没有关系,也不是属于wikimedia。

6,mediawiki,一个wiki软件的开源项目,wikipedia以及相关站点都是使用这个软件架站的。

7,mediazilla,得名于bugzilla,一个著名的程序bug跟踪软件,mediazilla是一个bugzilla的定制版本,这里也在wikipedia等项目的里面使用。

8,wikimania,wikimedia组织的会议。

wikipedia的兄弟们社区们都热衷于创造词汇,这是不是百科们的通病?

这次会议今年8月在德国法兰克福举行的,主站点介绍在这里。是wikimedia开发人员和参与人员,讨论涉及到wikipedia等项目的研究和试验,以及wiki文化和技术,和开放的知识世界(说实话,这个wikimania,以及关于它的wikibooks的编辑们做的整理工作真的不怎样)。


注意到,不要认为wiki与wikipedia同义,wikipedia是wiki在百科全书方面的一个应用,由于百科全书是词条-知识的对应,它是知识
组织的一个特例。我们谈到wiki的优势,也是主要谈论wiki在信息组织方面的优势,Orlowski们喜欢针对某一个事件推而广之,质疑这个事件中的
人,进而质疑他所在的组织,进而质疑整个项目,进而质疑这个项目所代表的组织方式(群智),进而质疑wiki对于知识的组织方式。


Orlowski有数篇是针对群智(collective
intelligence,或者wisdom of
crowd)的,为了集中在wiki对于知识组织的方面,在这里只说就不讨论了,以后若有机会(一定有!)再仔细讨论,而最简单的绕过这个问题的方法就是加上“如果群智存在”这样的话,所以,在Wiki的危机的危机表明观点时,只说就说起"如果群智存在,那么wiki是最好的平
台"。


先放几个例子在这,明天来谈wikipedia与semantic web:

rock and roll list,wikipedia被封,所以只说给answers.com的链接也是一样(不准点这个链接最下面的google广告)。

学院重要作品

中国历来名人录

以人名命名的小行星




 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月22日

-只说 

sayonly.com                

english |

other        wiki的优势
 
the register的两位刻薄的编辑为了反wiki,引经据典,挖了很多材料案例。姑且不考虑其意图如何,至少他们做了一件好事,就是将对wiki的意见(大多是反面意见)作了一个整理,理出脉络和主线。这些反对意见主要有:

1,wikipedia词条的质量问题;

2,改动的随意性,由此衍生对于权威的不尊重;

3,没有谁为词条负责;

我们可以看到wikipedia在这次事件之后,有两个重要的反应,都集中在wikipedia的组织方式方面,一是不允许匿名创建词条,二是发行版本分为稳定版本和修改版本,这是wikipedia在其组织方式方面做出的妥协和修正。


the register的文章曲解了wiki相关的人和事,对小问题大作文章。这个Orlowski的这一套几乎可以葬送发展中的wiki,当然他不能,因为theregister还没有那么权威。我们只需要列出文章,稍微翻一遍就能看到花招和伎俩。wiki和Orlowski之间的较量,可以形容成民间群智与民间较为规范的媒体之间的较量。其中没有政治因素,也不存在利益冲突,纯粹是信仰不同。


只是,下一次危机出现的时候,很有可能会有人提起来Orlowski和他这一套鬼扯,并且作为一种反技术的证据和理论。所以wikipedia的真正对手
不是无心在wiki上乱改的人们,而是Orlowski这样居心叵测预备随时就细节失误大做文章的小型媒体。因为失误是一种客观存在,Orlowski对
于失误的曲解又是一种客观存在,辩驳并澄清对于失误的曲解又是一种客观存在,这三种存在的内容,并没有一个方式方法可以联系在一起。


这就是我们在知识/问题讨论中遇到的对内容形成系统化的需求,它在某种程度上就是wiki的真正意义。在这个意义上说,即使刻薄如Orlowski,在某种程度上,都具有了极大的贡献。对于材料的整理,本身就是极其有意义的一件事情。虽然其出发点可能并非友善。


而在将来的一天,一个阅读者总结了只说反对Orlowski的几大问题,就像只说列出Orlowski反对wiki的几大问题一样。这些反对意见主要有:

1,故意曲解引用者观点;

2,对小问题大作文章;

3,并不在乎说错或者被指正的,唯恐天下不乱。

这就形成了某种结构型的知识。也正是wiki试图形成的。


理想的情形是,一个简单的请求应答模式就能方便快速获得知识,并且能获得相关的信息。我们很简单的就将未完成的部分称为技术。在阅读这些材料的时候,只说
想到,其实Orlowski们表面上在质疑技术,质疑wiki的组织方式,而实际上却存在着强烈的技术依赖,因为这些问题普遍存在,而他们的立论在于技术
以及wiki的组织方式并没有解决它们。
 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月21日

-

sayonly.com                

english |

other        wiki的优势
 
在我们进入wiki优势的系列之前,我们还得小小八卦一下,其实这位Otto Z. Stern并不是最早愚弄wikipedia报那个jimmy wales被杀信息的人,最早的是Orlowski,链接是这个
他同样是theregister的编辑(或者说是专栏作家),只说开始只看到Otto Z.
Stern报道,没有看到这位Orlowski,这个Orlowski名声坏得一蹋糊涂,很多名人都被他嘲弄过,如果大家以前看过他的文章,一定记得他们
(主要是Orlowski,当然也有Otto Z. Stern)与微软的scoble以及他的狗那场过节,过节开始于微软在ie7在beta版本里面block掉其他公司的工具栏。scoble认为,Orlowski的文章有很多欺骗人的成分。接下来玩儿得更过火了,不仅挖出来一个称为scoble的dog的blog(当然没人承认),然后就有一个人来说Orlowski的性能力,下面的回复说,提到他性能力的那个人是Dave Winer。


说这些没有别的意思,只是让大家了解,国外媒体也有搞笑和搞人的分别,而这个Orlowski和Otto Z. Stern,其实可以称为the
register的两大活宝,就是搞人的那种,当然你也可以仅仅说他们比较刻薄而已,但是这样的刻薄对于网络媒体来说使得wiki信任危机更糟糕。只说希
望大家了解到,the
register其实名声太复杂了,有些人也不是什么好鸟,当然,你也可以同意他们部分观点,也有一部分地方是有道理的。但是总得来说这不是什么特别好的
事情。


只说以前读过Otto Z. Stern专门写的一篇反对开源的文章,记不起链接了。呵呵,真是糟蹋了Otto Stern这个名字。当然不是这位革命小编辑,以前还有个人叫Otto Stern,是个知名的诺贝尔奖的物理学家。


只说这里将Andrew Orlowski部分针对wikipedia的文章列出来(注意,引用文章均为英文),并说明其中的引用、数据和观点,略微可以看出他为什么会搞了这么个消息出来:


10月18日,wikipedia创始人同意有严重的质量问题

副标题是“是的,它是垃圾,但是它发布如此之快”,如果就文章形式看起来,这个副标题就是jimmy wales的话了,不过,这是Nicholas Carr的话
也只是一部分,nick的文章也只是说明一个问题,web2.0与道德无关,涉及wikipedia的讨论,有两个,一是wikipedia是不是
web2.0,另一个是wikipedia是否不确定的词条的问题。nick的在文章后面的讨论中说,什么决定了一个参考书的好坏,不是它最好的词条,而
是它最差的词条。Orlowski用它来大作文章。“发布如此之快”是Orlowski自己的说法,还以一个比喻来形容wikipedia对错误词条的修
改:这个说法更不确切,这就像说你到饭店约会,服务员把腐烂的食物砸到你的身上,还跟你说,你看,我以最快的速度把它扔过来的。


10月24日,wikipedia:巫师、猴子和打字机

这篇文章引经据典,连Jason Scott很早的文章都翻出来了(12),
跟前一篇文章质疑词条质量问题不一样,这一篇主要应该在于词条被修改造成最初发布者的困扰,引用的很多人的原话都描述了他们在wikipedia的遭遇,
一篇好的文章提交之后,一段时间之后就改得面目全非,甚至认为有些作者仅仅你改动内容,被改之后又改回来,到最后获胜为乐。题目的几个描述在文中都没有出
现,只说造原意翻译的,这个猴子应该是指jason
scott所说的猴子,他认为wikipedia是猴子拼出来莎士比亚名著的实验,呵呵。作者后面描述道,这不知是否可以解释为认为天授作为听众权利的技
术乌托邦,他们很快的转到用户自身的愚蠢上来,也许我们“不懂”(这个不懂应该引述自反驳他的一个维基人),也许除了那些维基人之外没有人懂。不过这对于
他们来讲也是一个有用的工具,因而当wikipedia增生扩展时,它能用写就的水草般不准确信息,塞满google,而公众对于技术的信心降至极点。



10月27日,为什么wikipedia不是linux

这是比较wikipedia和linux的“集体智慧(collective
intelligence)”,这个题目还好,副标题是“和为什么大英百科不是发汗”,就有点搞了。这篇文章稍微失色一点,作者甚至把McHenry担心
我们的孩子可能不会从wikipedia学到什么东西也作为引证放进来。文中引述Carlo
Graziani的话简单概括了wikipedia和linux kernel的维护不同,wikipedia是激进的民主化的乌合之众,而linux
kernel则是金字塔式的维护层次,专家或者同等的人,对进入kenel的代码由强烈控制。最后还有有趣的一句:“集体智慧”这个难以理解的动物渐渐离
开我们的视线,而叫做“质量”的大象在屋中又一次挥动它的尾巴。


12月6日,谁为你的wikipedia传记负责?

这里的很多观点无可辩驳,甚至很容易产生心有戚戚焉得感觉,不得不佩服Orlowski的文字能力。除了引用Seigenthaler的事件
外,有3个其他的例子,并且得出了结论。第一个是Daniel
Brandt抨击google而被wikipedia屏蔽,想删除词条而遭到拒绝。结论是,如果你不是wikipedia的fans,或者批评这个项目,
那么不能修改你的词条。第二个Jimmy
Wales,多次删除了加在他的词条中的“色情文学”字样。结论是,如果你是wikipedia的创始人,你可以修改你的词条。第三个是Cory
Doctorow,自己对于自己词条的编辑时,介绍自己的书和经历时被质疑。结论是,你可以编辑你的词条,但是,有时候显得比较无助。文末还有提到政治规
则和风险。


12月12日,没有wikipedia词条有道德责任

因Seigenthaler事件而引发对于虚假消息制造者的质疑,或者说对于词条的责任问题,无责任的词条产生无根据的权威。对Seigenthaler
事件,Orlowski列出了2条wikipedia的辩护,并分别将这两条辩护导向荒谬,一是,他可以自己更改词条,二是,没有权威的数据源是绝对可信
的。看看Orlowski如何将之导向荒谬的,如果没有什么是可信的,er,绝对可信,那么wikipedia是不可信的。wikipedia10年来的
花言巧语骗了大家:随着互联网出现,我们承诺无限制的访问这个世界的知识即将成为现实。


12月16日,自然科学方面wikipedia不准确率比大英百科多于31%

对于nature的结果的不同解读。


12月17日,wikipedia创始人被Siegenthaler的一个朋友射杀

有趣的是文尾那个update,Gerry
Steele,一个读者,发给Orlowski的邮件,其中说,很可疑你发现了这样一个旧编辑版本,这很怪异,注意回复的快速(言下之意,这里没有什么文
章可作)。你这样做仅仅是对于专业记者的玷污,因此我个人很容易会将你的名字,和一个非专业记者,视为同义。


呵呵,其实Orlowski这些人并不在乎说错或者被指正的,他们就是唯恐天下不乱嘛,看一个题为“Internt即将死亡-Lessig教授”的文章,故意误解并夸大其辞,其后有读者指正,Orlowski并不在乎说错。


12月19日,1000万美元的成熟的wikipedia

谈到wikipedia的另一个创始人Larry Sanger开始的另一个项目,有跟wikipedia同样的目的,但是是花费1000万美元让专家来编辑所有条目。
 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com

2005年12月20日

-

sayonly.com                

english |

other        wiki的优势
 

wikipedia(维基百科)最近出现了极大的危机,这危机开始于Seigenthaler在今日美国的一篇文章,这篇文章题为"A false Wikipedia ‘biography’"(一条错误的维基传记),写的是wikipedia上的一篇匿名文章将john Seigenthaler
与前美国总统John F.Kennedy和议员Robert F.Kenndedy的遇刺联系在一起。wikipedia
是一个网络百科全书,注册或者匿名的访问者都可以修改其中的词条。所以Seigenthaler在致电wikipedia创始Jimmy
Wales并询问可能是谁撰写了这个词条时,wales回答说,不知道。Seigenthaler详细的描述了如何求解问题的情况,并且得到了wales
令人沮丧的答案,wiki经常碰到用户一而再再而三滥发辱骂的信息,封锁ip,他们就是用另外的方式,联系服务提供商,也不能得到回馈,所以建议Seigenthaler,电话公司BellSouth也许会有帮助。几周后,这位记者还真电话了BellSouth电话公司,可以想象,当然是碰壁的结果。所以Seigenthaler称这是Internet character assassination(网络人格毁损),并希望更多的人了解这种情况。



11日,创建这个词条的作者Brian Chase道歉,但是影响已经造成,各大媒体都有谈论关于wikipedia的信任问题,纽约时报的Larry Ingrassia作了一个备忘录希望他们的员工不要引用wikipedia的词条;早安硅谷称,
伪造的词条堆积如山

其后自然杂志比较了wikipedia和大英百科全书,数据显示,wikipedia和大英百科在错误率上不相上下,于是发表了wikipedia是准确
的,然而,负面的信息仍然接踵而至。首先是大英百科质疑nature检查的公正性,更多的人认为wikipedia的词条信息并非完全可以检测是否正确,
也有人说,这恰好宣告wikipedia创新性的覆灭。



更为激烈的是17日一条宣布Jimmy Wales死亡
消息,作者Otto Z. Stern还写了一段他的身平,还冠以先行者的称呼,副标题是"The man, the myth. And his
problems"(这个人,他的传奇,以及他的问题),文中称消息来自于wikipedia,这显然为了说明wikipedia的信息,存在着极大的不
确定性,随机性,进而质疑整个wiki社区(而不仅仅是wikipedia)以及其组织方式。



这个例子有很强烈对比的效果,有点类似于前一段时间为了说明google对于隐私的侵害,用google搜索出来google
ceo的隐私信息,并且把它公布于网站上。这种强烈的对比效果给了很多人,他们或许相信群体力量(wisdom of
crowd,群智),或许不相信,对于wikipedia的信任危机,甚至更深层次,对于wiki的组织方式的信任危机。



那么wiki究竟是否真是可信赖?wiki的优势在哪里?wiki的责任是什么?带着这些疑问,只说将开始这一个wiki系列文章。



不过这也不妨只说在这个系列的开始就表明观点,只说只是想从信息组织方式、技术等方面指出wiki的优势,就是"如果群智存在,那么wiki是最好的平
台",所以不是wales的问题,也不是wiki的问题,而是人自身的问题。软件开发多少都是理想化的,就算是最有经验的设计师,他也不可能专门考虑着
"人自身的不足",除非他造的是杀毒软件。所以wiki的可信度问题,等于是根本没有承认wiki的实际的核心价值。wales在14日采访中的答复算是没有完全说清楚wiki本身的价值,而似乎只是在解释问题为什么会发生,那样显然不像是处理所谓的信任危机的态度。



当然,只说这里也并不是帮大家推卸责任,所以,wiki的责任也并不是让人类的智慧大放光芒,而是在信任的基础上形成更结构化更容易理解的文本。就像web2.0,它的责任也并不是拯救泡沫。



那么,就让只说在这个开头对Otto Z. Stern或者类似于他的朋友们说:hmm… boy,你干了件蠢事儿。

然后进入这个wiki的优势系列:
Wiki的危机

瞧,the register的两位活宝

只说和Orlowski做的有意义的事

wikimedia

wikipedia与semantic web
donews+mop=牛扑
以非技术的眼光看microformats

SNS的语义化以及泛SNS方向
社会化blog
对RSS不大为国内接受的看法
结构化blog (structured blog)


 
 
 
        (

订阅RSS频道:文儿 feed.sayonly.com   收藏 

tag.sayonly.com