2007年10月16日

与遥感学界对全球林业资源和土地资源的统计会描绘相比,信息学界对全球信息资源的分布和增长情况的统计现代十分落后。

目前几乎没有任何机构可以给出中国信息资源分布的统计数据。

当然,与统计森林面积相比,统计信息资源的难度大了很多,首先就是统计标准的问题,信息学界一直没有一个公认的信息计量标准,传统的印刷品载体的信息、光介质信息和磁介质信息的统计方法显然难于一致,图片、文字、声视频形式的信息也无法一致性计量。

面对这种难题,信息管理学界几乎无从下手,而只能避而远之。

但是,计量虽然难于下手,但并不表示完全没有轨迹可循。事实上,加州大学伯克力分校信息管理学院的瓦立安教授早就对该课题进行了探索,也取得了一定的成果。我的博客中对此也零星的做过介绍。

我的考虑与瓦立安教授的出发点不同,我更关心的是信息资源的各种类型在不同的社会组织和社会阶层中的分布,初步的考虑如下图所示:

知识分子-----------------知识

                                                                        ---------

企业-------------------信息

                                                              --------------

政府-------------------数据

                                                 ----------------------

工人和农民----------------事实

                                    -----------------------------

知识分子主要掌握知识,但知识的数量最少;企业和公司类经济组织主要拥有信息,这是可以用来赚取利润的根本;政府主用展望数据,包括人类社会和自然的各类统计,涉及我们这个地球的各个方面,所以数量非常之大;但数据最大的还是事实类信息,也就是这个现实的世界上存在的各种事实,这些信息数量最大,所以成为各种信息和科学知识的生长沃土。

总的来说,数据数量上:事实>数据>信息>知识。

不同的组织和人群掌握不同的类型的信息,这一现象到底对人类社会存在什么样的影响,具有什么样的社会学意义,还不得而知。

也许这可以成为“社会信息学”研究的一个议题。

 

 

优酷的victorkoo 在其博文——《web2.0也有中心》提到了一点数据,本文认为对于理解和分析关于web2.0的特征问题具有帮助作用:

1,只有少数的用户会主动上载内容,大多数的用户,是在浏览内容,这个是非常不均衡的2个数字。譬如优酷上传视频最多的前三名(trijif、ff521a、我心无羁),每个人上传接近2000个视频,平均每人每天上传接近20个视频,他们每日的贡献内容,影响了一批用户,他们,某种意义上说,是优酷的内容制作的中心之一。

2,20%的用户带来80%的网站pv。这个也是互联网的不二法则,在所谓的web2.0时代也不例外。在优酷网上,类似甜甜圈ankoo20水晶甲壳虫等活跃的明星用户,他们提供的精彩内容,一般情况下,单个内容,优酷网的用户点击观看都达到数万次,个别内容,点击观看超过百万次。他们,是用户关注点的中心。

3,20%的内容带来80%的评论。我们高兴的看到,虽然,优酷网6月才launch,不过目前,在访问量上,已是在行业前列;而我们在做行业对比时候无意发现,我们的每周评论数字前20名的评论数,占视频评论数的大部分。而且,我们这些视频的评论数,是我们竞争对手同样每周评论前20名评论数的数倍。这说明,这些视频黏住了用户的眼球,他们,是用户争议的中心。当然,从某种角度也可以说,优酷网上的用户上传微视频,是足够专业和足够敏感度的,也帮助优酷,在短短4个月内,成为目前诸多视频网站中,用户交互最好的网站了。

编按:根据这段数据,我们有理由相信二八原则并没有过时,互联网只是人类社会的一个新的信息传播交流环境,并没有因为几个社会性软件的产生和应用而全盘推翻人类的固有法则,但是长尾理论的确在这个新型的信息环境中发挥了作用,即利用新型的社会性软件,大众也具有了一定的信息筛选、组织、传播、评价和选择的能力,改变了以往只有少数专家才拥有的局面。

web2.0和长尾理论都意味着处于长尾部分的大众力量的崛起,但这并不等于专家的消失和权力的散失。事实上,web2.0更多的意味着信息和知识高度集中化生产和传播的模式正在向分布集中化生产和传播的模式转变。这种转变的更大环境是制度环境、经济环境和技术环境的变化,这一趋势被弗里德曼称为《世界是平的》。

针对各种信息环境而言,如新闻市场、学术市场等,不同的环境中的信息生态结构并不相同,也难于比较这与大自然界的生态系统具有一定的相似性。要研究各种信息环境在web2.0风暴中的变化,必须考虑各个环境的特定因素和生态位置。只有如此才能更好的理解所谓的“中心化”“去中心化”的真正含义。

总之一句话:web2.0并不意味着中心消失和社会层级的完全消失,而是由高度集中控制向分布集中控制转变,简单的说就是世界更加扁平和多元。

2007年10月15日
美国学术评价的新招——h指数
 
方舟子
  2006年01月11日08:50 【字号 】【留言】【论坛】【打印】【关闭


  一种评价学术成就的新方法

  为了解决这些问题,赫希提出了一种新的计量办法,写成一篇论文在去年8月先在网上公布,当时就引起了广泛的注意,英国《自然》、美国《科学》都立即做了报道。该论文在去年11月正式发表在《美国科学院院刊》上。

  赫希将这种方法称为h指数(h-index),h代表“高引用次数”(high citations)。一个人的h指数是指他至多有h篇论文分别被引用了至少h次。例如,赫希本人的h指数是49,这表示他已发表的论文中,每篇被引用了至少49次的论文总共有49篇。

  与其他统计方法不同的是,要确定一个人的h指数非常容易,用赫希的话说,只需要“花30秒钟”。到SCI网站,查出某个人发表的所有SCI论文,让其按被引次数从高到低排列,往下核对,直到某篇论文的序号大于该论文被引次数,那个序号减去1就是h指数。

  赫希认为h指数能够比较准确地反映一个人的学术成就。一个人的h指数越高,则表明他的论文影响力越大。在当代物理学家当中,h指数最高的是普林斯顿大学的理论物理学家爱德华·维腾(Edward Witten),达110。维腾被普遍认为是当代最有影响的理论物理学家。中国读者较为熟悉的霍金的h指数也比较高,为62。生物学家当中h指数最高的为沃尔夫医学奖获得者、约翰斯·霍普金斯大学神经生物学家施奈德(Solomon H.Snyder),高达191,其次为诺贝尔生理学或医学奖获得者、加州理工学院生物学家巴尔的摩(David Baltimore),为160。生物学家的h指数都偏高,表明h指数就像其他指标一样,不适合用于跨学科的比较。

  赫希还计算了在最近20年获得诺贝尔物理学奖的物理学家的h指数,平均值为41。美国科学院物理学与天文学部2005年新科院士的h指数平均为44,而生物医学部新科院士的h指数平均高达57。

  很显然,h指数的高低与从事科研的时间长短有关。对于年轻科学家来说,由于发表论文数量太少,论文的数目成了其h指数的上限,计算其h指数没有多大的意义。h指数比较适合用于衡量已从事科研多年的资深科学家的总体成就。一个人的h指数不会随着时间的推移而减少,只会增加或保持不变。

  通过研究许多位物理学家的h指数,赫希认为如果一个人在从事科研20年后(从发表第一篇论文算起),h指数能达到20,就算是一名成功的科学家;能达到40,则是一名杰出的科学家,很可能只能在名牌大学或研究所才能见到;能达到60(或30年后达到90),则是首屈一指的大科学家了。

  赫希同时提出,美国研究型大学的物理学家要获得永久教职(副教授),h指数一般为10到12,晋升为正教授则大约为18。成为美国物理学会会士的h指数一般在15到20,而成为美国科学院院士则一般在45或更高。

  h指数也有漏洞可钻

  h指数有其局限,除了不适合用于评价年轻科学家外,也不适合用于评价历史上科学大师的成就。比如,根据SCI的收录计算,大物理学家费曼的h指数仅为21,按赫希提出的标准只能算是一名“成功科学家”。SCI未收录1955年之前的物理论文,费曼在那之前发表过17篇论文,即使把这17篇论文全部算进去,费曼的h指数最多也就38,也还没达到“杰出科学家”的标准。老一辈科学家并不像当代科学家那样频繁发表论文,而且他们的重大贡献很快成为专业常识,人们在提及时不再引用其论文,这两方面的原因使得他们在h指数方面大大吃亏。

  论文引用包括作者本人在后来的论文中自我引用(自引)和他人的引用(他引)两种,SCI在统计时并不对二者做出区分。显然,自引次数的多少与论文的影响力毫无关系,但是有些科研人员却故意频繁自引,制造论文被引次数高的假象。赫希认为h指数的一个优势是很难通过自引来拔高,“无法伪造它”,因为它衡量的是一个人的全部学术成果能否经受长时间的考验。波士顿大学物理学家悉尼·莱德纳(Sidney Redner)接受《自然》的采访时对此也表示同意:“想要假造全部的科研生涯是非常困难的。”

  赫希和莱德纳都低估了中国科研人员在这方面的创造能力。以郑岳青为例,他迄今共发表了134篇SCI论文,其h指数是14,这算是相当高的了,按赫希的标准,可以在美国研究型大学获得永久教职。但是仔细核查这些论文的被引用情况,会发现绝大多数都是没有价值的自引,有的论文被引用了24次,而其中郑岳青自己就引用了20次!如果把自引次数去除掉,郑岳青的h指数就降到了不值一提的6。再好的评价体系,也无法避免被别有用心者钻空子。在中国,一个人想要假造全部的科研生涯是非常容易的。

【1】 【2】

 

来源:《中国青年报》

网络来源:http://edu.people.com.cn/GB/8216/4016420.html

2007年10月13日

最近看到一个消息,如下:

成为《商业周刊》封面人物的虚拟角色Anshe Chung(在现实中,她是一名华裔德国语言教师),在第二人生里经营着一个虚拟房地产开发公司,如今他在中国武汉聘请了10名全职雇员。

虽然这不是我首次看到的新闻,事实上早已称为旧闻,但联想到最近关于虚拟人生的考虑,突然产生了一个问题——什么因素导致了现实生活中普通人称为虚拟生活里面的成功者?这一问题显然与问题少年在网络游戏中的英雄形象问题有些相关?

解答这个问题必须首先看看个体是如何进入和融入现实社会和虚拟社会的。

显然,个体作为一种生物体进入现实社会是从出生开始的,出生家庭和生活环境在很大程度上影响了一个人在现实生活中拥有的各种社会资源,这些社会资源和社会条件可能不附和个体的理想,但个体也很难改变自己的出身,从社会网络的观点来看 ,个体作为社会网络的一个节点,他周围的节点在一定 程度上决定了他的命运,所以说“龙生龙,凤生凤,老鼠生的儿子会打洞”,个体只能接受无条件的接受这些先天条件而无法概念,因为他无法选择出生和成人之前的命运。

个体作为虚拟人进入虚拟社会的过程则不相同,一般说来,虚拟社会中的玩家多数已经成熟,他们在心智成熟阶段进入一个全新的社会,在这里他们可以选择自己的出生(如武士、魔法师、商人等),这些社会形象完全可以自我掌控,所以进入这个世界的个体有一种重生的感觉,而且因为社会形象不同,个体完全有能力让其虚拟形象走出一条理想的生活之路,即使某个虚拟形象不成功也可以推倒重来,也就是说虚拟世界中有很多”后悔药“,这无疑与现实社会中因而先天资源不足而导致的发展受限和生活不理想有很大的区别。

正因为以上根本性的原因,在现实生活中并不成功的人完全有能力在虚拟社会中称为一个成功者,但是到目前为止,这两个世界是难于建立通道的,也就是现实的成功并不能带来虚拟的成功,虚拟的成功也不能完全转移到现实中。但这并不意味着未来也没有可能。Anshe Chung在第二人生中的故事已经说明,现实世界和虚拟世界的联系正在因为某些经济性通道而称为可能,至少在个人的财富领域如此。

2007年08月05日

最近4个月因为写博士论文而放弃了很多博客写作的工作,同时维护两个博客也让我有点吃不消.

今天无意中看到一个师弟的博客,感觉自己有点懒惰了,重担已经放下了,还是重新捡起行装继续出发吧1

2007年01月24日

转载一篇中国教育网络文章,作者:张树人,讨论了用DRUPALWIKIBLOG搭建开放式知识社区的问题。


 

Blog是Web-log(网络日志)的简写,最早产生于Pyra实验室,用于项目小组成员间的沟通交流,后来发展为互联网上流行的个人知识管理工具和知识社区的平台工具。

个性化的知识管理功能和系统之间的标准化交互机制,使得Blog非常适合于自底向上地架构分布式知识社区。Blog系统设计时遵循的一些统一交互标准——RSS、Ping、Trackback、Social Tags等,使得跨系统的交互与系统内的交互几乎同样容易。基于Blog自下而上建构的知识社区如图1所示,其中每个成员都可以有一个完全独立的Blog 系统,这些Blog系统可以分布在互联网上的任何地方,社区组织者可以用集中订阅的工具把成员的Blog组织起来。

在Blog架构的知识社区中,信息系统不再彼此分离,由于具有开放式互操作接口,Blog系统可以集成其他信息交流工具的功能,并通过 “Blog API”向其他系统开放自己的功能。信息之间也不再分离,一些Blog采用了“Social Tags”技术,使得同类信息在发布时就能够以分享标签的方式建立起共同分类的联系。由于该技术可以同样应用于别的系统,社区内积聚的知识与社区外的知识也可以同样建立起联系,因此整个知识社区都是开放的。人与知识不再分离,社区中的所有知识都隶属于某个Blog,知识与创造者间的关系一目了然。用户彼此不再分离,所有的用户都是参与者,参与过程中在Blog上记录了自己的学习行为,这种学习行为可以对其他成员的学习造成影响,传统的帮带学习则可以通过跟踪订阅权威成员的Blog实现。由于知识创造与学习过程可以是同步的,因此知识创造者之间也更容易形成协作,通过互相评论和深入讨论,实现知识社区内的有效协作,从而解决了人与人分离的问题。

“Wiki”一词源于夏威夷语“wee kee”,意思是“快点快点”。大约是因为“快点快点”地催促暗合了这个系统迫切需要的参与精神,Ward Cunningham就用Wiki命名了以“知识库文档”为中心、以“共同创作”为手段,靠“众人不停地更新修改”这样一种借助互联网创建、积累、完善和分享知识的全新模式。后来Ward Cunningham为Wiki总结了开放、增长、有组织、通俗、全民、公开、统一、精确、宽容、透明、汇聚等设计原则,凡是基本符合这些设计原则的内容编辑系统都可称之为Wiki。

与Blog强调个人的自主性相比,Wiki更强调知识社区内集体的协作,特别适合协同创作,如共同构建知识库、形成标准文档等。

Wiki的原理在于开放编辑和自由协作,用户可以修改系统中所有的知识信息并添加意见,Wiki系统则记录下所有的用户行为和修订的版本历史。这个过程好比大家共同在一张白纸上描绘,那些能获得最多人共识的部分在重复描绘中因为线条笔墨的加重而涌现出来(知识的这种自底向上的涌现与传统知识社区中知识由专家定义完全不同)。比如在自由的百科全书(Wikipedia,最著名和最成功的Wiki应用范例)中,各个词条最终形成的中性客观定义就是在这样的机制中产生的。原本没有什么客观的知识,有的只是主观林立的意见分歧,在开放编辑的条件下,不同用户反复修订相当于进行一场广泛参与的协商讨论,协商讨论得越充分,得到的结果越容易获得更多人的接受,越接近“客观的知识”。

对应传统知识社区中的问题,Wiki搭建的知识社区中,信息的分离问题不再存在。Wiki最大的特色在于系统内信息间添加链接的方便性,只需要在某个词汇上添加一个标记,就可以与该词汇相关的定义建立起联系,甚至可以预留指向未来待定义的信息。系统之间不再分离,Wiki与Blog一样同样支持一些标准的系统间互操作标准,使得Wiki系统中的更新信息可以很容易整合到别的系统中去,Wiki系统还可以内嵌程序代码的方式应用其他系统的开放接口,实现系统之间的协作。用户之间不再分离,用户之间在修改创作的过程中,通过其创作的对象,建立了默契的协作联系,对同一信息的编辑和关注,让有共同兴趣的人聚集在一起,并可形成讨论。此外,Wiki还通过记录页面拥有者和为页面拥有者提供个人页面的方式,把知识信息与编辑者联系起来,藉此可以方便地找到知识背后的主人(当然,由于Wiki更强调集体协作,知识更多的是众人的智慧结晶,因此所谓知识背后的主人也通常指的是相关知识编撰的组织者或发起人,大量匿名的知识奉献者只记录下了他们的行为,不要求记录更多的相关信息)。

最后,值得一提的是,无论是Blog还是Wiki,都是一系列规范和功能的集合,这些规范和功能可以灵活地搭配组合。比如,集二者于一体的 Blog-Wiki混合系统Drupal,综合了Blog和Wiki两方面的优点,因此适合于既强调个性,又有明确的集体创作目标或共同任务与主题的知识社区的构建。此外,这一点还可以启发我们,在对待传统信息系统和知识社区时,也无须全盘推倒,完全可以在原有系统的基础上,进行功能改造,通过吸取 Blog或Wiki中的功能或设计原则,解决原有架构中存在的问题。也就是说,我们不应过分局限于具体的Blog或Wiki系统,而更应关注其背后的哲学,从而实现更灵活的应用。

2007年01月12日

目前四大西方主流通讯社美联社、合众国际、路透社、法新社每天发出的新闻量占据了整个世界新闻发稿量的4/5。西方50家媒体跨国公司占据了世界95%的传媒市场,美国控制了全球75%的电视节目的生产和制作,许多第三世界国家的电视节目有60%-80%的栏目内容来自美国。美国电影产量仅占全球影片产量的6.7%,却占领了全球50%以上的总放映时间。
   中国目前共有报纸2119种,期刊9074种,出版社570家,广播电台282座,电视台314座,教育台60个,音像制品出版单位320家,电子出版物出版单位121家,WWW站点(包括.CN、.COM、.NET、.ORG下的网站)总数约为668900个,

2007年01月05日

作者:陈朝晖 雅虎美国工程师

背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。

首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华,去其糟粕,挑选出有价值的网页进行索引。因此,对用户而言,搜索引擎的索引量大小才更有意义。

其次,无限制增大索引量并不一定能保证搜索质量的提升。一方面,在全面性指标中,除索引量外,还需要考虑到收录网页的质量和不同类型网页的分布。另一方面,搜索引擎的质量指标体系要保证四方面的均衡发展,不是依靠单个指标的突破就可以改善的。目前包括雅虎中国在内的主流中文搜索引擎的网页索引量都在20亿量级,基本上可以满足用户的日常查询需求。

然而,由于从外部无法直接测算出搜索引擎网页索引量的绝对值大小,很多搜索引擎服务商喜欢对外夸大自己的收录网页数,作为市场噱头。从1998年开始,Krishna Bharat和Andrei Broder就开始研究,如何通过第三方来客观比较不同搜索引擎索引量的大小。8年后,在今年5月份的WWW2006大会上,来自以色列的Ziv Bar-Yossef和Maxim Gurevich由于这方面的出色研究成果夺得了大会唯一的最佳论文奖。他们的研究算出了主流英文搜索引擎的索引量相对大小:雅虎是Google的1.28倍,Google是MSN的1.36倍。他们是如何算出这些数字的呢?下面我们将为搜索引擎爱好者介绍这个算法,以及探讨在中文搜索引擎上是如何应用的。

概述
搜索引擎的索引量或称覆盖率对搜索结果的相关性、时效性和找到率都具有深远的影响。出于市场运作的考虑,各大互联网搜索引擎不时对外公布自己索引的文档数量,然而这些数据往往不同程度地被加入了一些水份,可信度上有一个问号。因此,如何通过搜索引擎的公共接口,也就是通常所说的搜索框,比较客观、准确地测试它的索引量就成为了一个令人关注的问题。
suoyin.jpg
                                   图1,对搜索引擎的索引采样

每一个搜索引擎的索引都覆盖了互联网上全部文档的一个子集。如果我们把测试作为对这个集合的采样,那么问题的关键就在于如何实现一个近似的等概率随机采样(uniform search engine url sampler),参见图1。具体地说,假定一个搜索引擎S总共索引了|D|个文档,那么我们希望采样得到某一个具体文档的概率是1/|D|。

一旦实现了通过搜索框对索引的等概率随机采样,我们就可以在统计意义上比较有把握地估计搜索引擎索引量的相对大小。如下图所示:
suoyin2.jpg
                             图2,比较搜索引擎索引的相对大小

我们先对引擎S1随机采样N1个url。然后,通过url查询获知引擎S2索引了其中的N12个url,而没有索引另外N10个。换句话说,N1 = N10+N12 。同样地,如果我们对引擎S2随机采样N2个url,发现其中N21被S1收录而N20没有收录,N2=N20+N21。那么我们可以估计S1与S2的相对大小为:

|D1|/|D2|
≌(N12+N10) / (N12+N12N20/N21)
=(N1N21)/(N2N12)
=N21/N12 (如果N1══N2)

搜索引擎索引的等概率随机采样:Ziv Bar-Yossef 等人的方法介绍

对于搜索引擎等概率随机采样的研究已经有了相当长的历史,具体的背景文献我们不准备在这里一一探讨。我们希望通过对Bar-Yossef等人最近工作的介绍,把一种比较客观、科学的测试方法推介给读者。我们也会探讨他们的方法对于中文索引的局限性和一些解决方案。
suoyin3.jpg
                                   图3,一个简化的搜索引擎索引

图3给出了一个简化了的搜索引擎索引示例,假定关键字“news”将返回4个结果:www.cnn.com、news.google.com、www.foxnews.com和news.bbc.co.uk。

首先我们给出一组定义

  • 关键字搜索结果集合:results(q) = { 搜索关键字 q所返回的全部结果文档之集合}
  • 文档关键字集合:queries(x) = { 所有能返回文档x的搜索关键字之集合}
  • 搜索关键字池P:一组理论上能够覆盖所有文档的搜索关键字集合
    • 例如图3中P = {news, bbc, maps, google}
  • 关键字搜索结果量:card(q) = |results(q)|,搜索关键字 q所返回的全部结果文档之数量
    • 例如图3中 card(“news”) = 4,card(“bbc”) = 3
  • 文档匹配度: deg(x) = |queries(x)| ,全体能够匹配文档x的搜索关键字数量
    • 例如图3中deg(www.cnn.com) = 1,deg(news.bbc.co.uk) = 2

当我们通过搜索框对搜索引擎的索引进行采样,所获得的结果实际上偏向于匹配度高的文档。对于图3所示的搜索引擎,如果我们从搜索关键字池P = {news, bbc, maps, google}中任意选取一个关键字,然后在所得搜索结果中任意选取一个文档,那么选到某一个具体文档的概率与它的匹配度成正比,例如,p(news.bbc.co.uk) = 2/13 ,p(www.cnn.com) = 1/13

因此,通过关键字对搜索引擎的索引进行采样,实际上是对文档匹配度概率分布在作随机抽样。具体地说,如果相对于一个给定的搜索关键字池P,该索引的全部文档匹配度的总和为deg(D) = ∑x∈D deg(x),那么通过搜索框对引擎采样获取具体一个文档x的概率是deg(x)/ deg(D)。

如何通过对文档匹配度分布的随机抽样而获得我们所期望的等概率随机采样呢?这正是Bar-Yossef 等人工作的主要成果所在:他们采用蒙特卡罗仿真(Monte Carlo Simulation)算法实现了这一点

  • 目标分布π(x) : D上的等概率随机分布, π(x) = 1/|D|
  • 实际采样分布p(x) : D上的文档匹配度随机分布,p(x) = deg(x) / ∑x’∈Ddeg(x’)
  • 偏差权值: w(x) = π(x)/p(x) ∝1/deg(x)

采样过程,参见图4

  • 选定一个搜索关键字池P
  • 随机选取q ∈P
  • 在搜索结果中随机选取一个文档x ∈results(q)
  • 计算该文档对P 的匹配度deg(x)
  • 产生一个0~1的随机数r,如果r ≤ 1/deg(x)保留该文档,否则放弃
  • 重复上述过程直到获得N个有效采样点

suoyin4.jpg
图4,通过蒙特卡罗仿真(Monte Carlo Simulation)算法实现对索引的等概率随机采样

问题和讨论

上述算法在数学上非常严谨优美,但是在具体的实现过程中仍然有相当多的困难,尤其是对于中文搜索引擎,有一些特殊的问题需要探讨。

  • 搜索关键字池P的选取

P选择的条件是(1)要保证p(x) = 0,即索引中文档不匹配任何一个关键字q ∈ P的概率足够小。如果这个概率太高,测试只能局限于索引的一小部分,测试的结果就失去了意义。(2)关键字搜索结果量card(q)最好要比较小,这样可以尽可能地避免搜索结果超过搜索引擎允许返回结果的上限。作者提出的方案是通过抓取和分析一个大型的网上文库,例如维基百科全书,选择其中所有的英文单词的集合或者所有K个相连单词的集合作为P。这对于没有分词问题的英文而言是容易实现的,但对于汉语等需要分词的语种,这个方法似乎并不很合适。我们建议直接采用GBK字库中的全部字符,或者采用中文分词标准中所有词汇的集合。

  • 如何计算文档对P的匹配度deg(x)?

文档匹配度deg(x)必须离线计算,通过查询获得是不现实的。对英文文档来说,只要计算文档中覆盖了多少个关键字q ∈P。但是对中文而言,不同引擎包含了不同的搜索逻辑,例如四个汉字以下的搜索通常采取词组搜索,长搜索词有些引擎可能采取与或逻辑。不同引擎对于汉语分词的处理也有较大的差异。在索引文档时,有些引擎可能考虑了繁简汉字的转换。所有这些都会对匹配度产生一定程度的影响。

实际上,匹配度deg(x)的计算并不一定要十分精确,一些近似处理是可以接受的,只要误差不至于太大。我们建议用GBK字库的单个汉字集合作为P,这样可以避免分词的差异。而此时文档的匹配度就是一个文档包含不同GBK字符的个数。

  • 搜索引擎对搜索最大返回结果的限制。

这一点Bar-Yossef 等人的文章中有比较详细的讨论,他们认为这个限制对于测试结果的影响并不太大。

  • 该算法的计算复杂度比较高。

从计算量上考虑,由于deg(x)一般都比较大,因此搜索结果文档被放弃的比例较高,如何进一步改进算法的复杂度是一个值得探讨的问题。

参考文献

* Ziv Bar-Yossef and Maxim Gurevich, Random Sampling from a Search Engine’s Index (PDF文件PPT文件)

2006年12月29日
在一篇名为”The Problem of Historical Specificity”的讲义中,Geoff  Hodgson将社会科学抽象为5个层次,从一般到特殊依次为:

 

1、一般系统- general systems.

 

2、人类社会-human society

 

3、人类文明-human civilization

 

4、复杂人类社会结构的特定类型specific types of complex human social formation

 

5、每一社会组织的多样性varieties of each type of social formation

 

第一层次是对所有开放、演化与复杂系统都适用的特征和原理,包括达尔文的进化论(Darwin’s principles of evolution)、Lamarck的复杂性递增假说、baer法则以及Ashby的必要多样性定律,作为这一层次的关键词,Hodgson选取了变化(Variety)、复制(replication)、选择(Selection) 、路径依赖(path dependence)、资源稀缺(resource scarcity)、负熵、自组织与耗散系统.http://leros.blogbus.com/files/1145348587.jpg
简单解释一下其中的名词:

 

[1] Lamarck’s hypothesis of increasing complexity :
Lamarck是法国生物学,最为著名是获得性状遗传(inheritance of acquired traits)理论, 在这个理论中Lamarck认为生物在应对环境中形成的一些性状,可以通过繁殖,遗传保留下来,他的思想概括为:
……a change in the environment causes changes in the needs of organisms living in that environment, which in turn causes changes in their behavior. Altered behavior leads to greater or lesser use of a given structure or organ; use would cause the structure to increase in size over several generations, whereas disuse would cause it to shrink or even disappear
与达尔文主义(自然选择)一味强调环境在生物进化中的主导地位不同,Lamarck认为遗传在生物进化机制中的作用更为重要,但他们的结论却是相似的:在漫长的岁月中,谱系的适应性变化,最终被环境变化所驱动(adaptive change in lineages, ultimately driven by environmental change, over long periods of time)
Lamarck与现代演化理论的不同之处在于,他认为演化是一个复杂性递增且趋于完善的过程,并不是出于偶然的机会(Nature, in producing in succession every species of animal, and beginning with the least perfect or simplest to end her work with the most perfect, has gradually complicated their structure.")

 

  [2]baer法则
    贝尔法则(Baer’s law) 是脊椎动物胚胎发育的一种规律。由生物学家冯·贝尔(Karl Ernst von Baer)于1828年提出,故名。贝尔长期从事脊椎动物胚胎发育的研究。当他比较了不同脊椎动物的胚胎发育时,得出了以下重要结论:
   (1)每一较大动物类群的共同性状比专门性状形成得较早
   (2)先出现最共同的性状,然后出现较专门的性状,最后才出现最专门的性状;
   (3)不同纲动物的胚胎最初是相似的,在以后的发育中才逐步分歧。就是说,不同纲脊椎动物的早期胚胎是极其相似的,在胚胎发育过程中,门的性状最先出现,随后才依次出现目、科、属、种的性状。这种规律被称为贝尔法则。达尔文很重视贝尔的上述发现。并把它看作是生物进化的胚胎学证据。
    Ps:现代生物分类方式(界、门、纲、目、科、属、种)源于18世纪瑞典生物学家林奈(Carolus Linnaeus
[3]Ashby’s law of requisite variety
Ashby的必要多样性定律:一个复杂的系统必须有一个复杂的控制机构,简单的控制机构不能有效地控制复杂的系统",包括两层含义:
 (1) the amount of appropriate selection that can be performed is limited by the amount of information available.­——在决策中更多的信息可能被浪费,但信息不足的结果是武断决策。
 (2) for appropriate regulation the variety in the regulator must be equal to or greater than the variety in the system being regulated. Or, the greater the variety within a system, the greater its ability to reduce variety in its environment through regulation. Only variety (in the regulator) can destroy variety (in the system being regulated).

 

     [4] Negentropy 译作“负熵”,详细解释见“What is (Schrödinger’s) Negentropy?”     
    The ‘negentropy’, or ‘negative entropy’ comes from Schrödinger’s book,《 What is Life?》 in which he writes,
    "It is by avoiding the rapid decay into the inert state of ‘equilibrium’ that an organism appears so enigmatic….What an organism feeds upon is negative entropy."(使生物体避免迅速衰落至惰性的均衡状态的力量,看起来高深莫测……生物体依靠负熵维生)
    In a footnote, later, however, Schrödinger explains that by ‘negative entropy’, he really means free energy. Many subsequent authors have taken negentropy as being simply entropy with a negative sign, as they feel it simply is erroneous to refer to ‘negentropy’ as free energy.
      Despite that, the term continues to be used by biologists to the present day, beginning with one of the most authoritative among them:
      "It is common knowledge that the ultimate source of all our energy and negative entropy is the radiation of the sun."
      The reason ‘negentropy’ continues to be used is that ‘entropy with a negative sign’ simply does not capture what is intended by the original term. Schrödinger uses it to identify the remarkable ability of the living system, not only to avoid the effects of entropy production – as dictated by the second law – but to do just the opposite, to increase organization, which intuitively, seems like the converse of entropy. Szent-Györgi, on the other hand, alludes to both the notions of free energy and of organization in his use of the term. Both scientists have the right intuition – energy and organization are inextricably bound up with each other.( 按Schrödinger的理解,负熵不仅使一个充满生机的系统避免熵的效应,相反增加了组织性,这与熵正好相反,按照热力学第二定律,熵意味着孤立系统倾向于增加混乱程度。作者认为自由能量和组织是紧密相连的)

 

        [5] Self-Organization 中文常译作“自组织”
Something is self-organizing if, left to itself, it tends to become more organized. This is an unusual, indeed quite counter-intuitive property: we expect that, left to themselves, things get messy, and that when we encounter a very high degree of order, or an increase in order, something, someone, or at least some peculiar thing, is responsible. (This is the heart of the Argument from Design.) But we now know of many instances where this expectation is simply wrong, of things which can start in a highly random state and, without being shaped from the outside, become more and more organized. Thus self-organization is one of the most interesting concepts in modern science — if also one of the most nebulous, because the ideas of organization, pattern, order and so forth are, as used normally, quite vague.
自组织是《复杂》一书中经常提到的一个词。
[6]Dissipative structures(耗散结构

耗散结构(dissipative structures)是指在一个开放系统远离平衡态非线性区所形成的一种宏观的,动态有序的结构,这种结构需要系统不断地与外界交换物质,信息与能量才能维持自身於一种流变整体(flowing wholeness)的稳态,因此称之为耗散结构(Prigogine & Stengers,1984).要形成耗散结构则开放系统必须达到远离平衡态的非线性区,系统内部某个参量的变化也达到一定的阀值(bias),才有可能通过涨落(fluctuation),产生非平衡相变,使系统由原来的非耗散结构跃迁为耗散结构,因为具耗散结构的系统可由系统内部产生自我组织的运作,因此耗散结构论又称为非平衡系统的自组织(self-organizing)理论;形成与维持耗散结构的条件有四项:
1.开放性
任一耗散结构,只有在开放的条件下,不断地与外界交换物质与能量才能维持自身於一定的动态稳定状态,可以说「开放」是耗散结构得以存在的基础.这种交换与热力学第二定律有关:热量传递的方向总是从高温物体传向低温的物体,功可以全部转变为热,而热量却不可能通过循环过程全部转变为功,不可逆过程带来熵增,熵增使能量的「品质」衰退或降低(能贬值).
2.非平衡
开放是耗散结构存在的基础,内部有物质与能量运动的系统若具有开放的条件,但处於热力学平衡态或线性近平衡态,仍将使系统趋於无序,无组织,这是因为熵降低系统的有序度,组织度,而热力学平衡态或线性近平衡态系统的总熵必然不断增加;唯有非平衡(远离平衡,或不稳定)系统可以透过能交换物质与信息使熵交换变化量为负,抵销系统内部必然增加的混乱度,让系统整体得以保持在稳定的低熵状态,促使系统维持或发展耗散结构.
 3.涨落
开放与非平衡是形成耗散结构的条件,但唯有通过系统内部的涨落才可能使开放与非平衡两条件发挥作用;涨落是指系统中某个变量的行为对稳定性的偏离,它与系统的功能及结构之间相互影响,相互制约,可以发挥两种作用:对平衡结构和近平衡结构而言,涨落带来干扰会很快地衰减以致消失,不太可能促使此两者结构跳到另一种动态的稳态;对於远离平衡态的开放系统而言,涨落所造成的偏离是触发非平衡相变的契机,非平衡相变是指系统处於不稳态,系统内部随机的涨落迅速地被放大,而使系统跃迁到新的有序状态.
4.非线性
任何称之为系统的存在与发展必须有内部相互联系的力量,这种相互联系机制就是来自於非线性作用.上述三项条件是形成耗散结构之必要条件,而非线性的交互作用是形成耗散结构的充分条件:当开放系统内部各元素之间与子系统之间存在著不绝对独立,均匀与对称关系时,才可能发生协同,竞争,调节,消长等现象,系统也才有涌现整体性,结构性,层次性的可能,并更进一步地开始具备继续演化的能力.非线性机制的运作若以非线性微分方程呈现,可以在非线性方程中看到多个定态解,并且存在著分支的现象,这种不确定性说明了系统形成新的有序状态的各种可能性空间与过程.
更具体的论述,以及技术细节,可参考这里

 

 

在第一层次,Hodgson将一般系统作为分析范围,从生物世界和物理世界抽象出关键概念,以熵、组织、演化、信息等术语来论述系统的变化——包括从无序到有序的相互转化、生命演变的层次问题、生命演化与环境交互、组织与能量的联系等等。每一个个体,不管是生物体还是无机体,都可视为一个小的系统,许多的个体组成大的系统,进而组成巨型系统,维持系统(或将个体形成组织)需要能量,熵使得系统趋于混乱,还原为个体。生命系统似乎要复杂的多,在《复杂》一书中,桑塔费的科学家相信生命源于“自组织系统”,而不是通过将一些简单的无机物放入特定容器来“撞大运”。
在结束这一部分的叙述前,系统(system)的定义不容遗漏,《美国传统词典》的解释是:A group of interacting, interrelated, or interdependent elements forming a complex whole. 在找到更好的定义前,我将采取这个说法。

记得有一位伟人曾经提出过这样一个问题:“如果世界出现了一次毁灭性的灾难,世上所有的知识都会被遗忘。但你有机会留下一句话,使后人通过这句话最大的受益,你会说什么?”这位伟人的答案是:“世界上的任何物质都是由一些基本粒子所构成的。” 但如果问我,我想我会留下热力学第二定律,也就是熵增原理。

诚然,在所有的物理学概念里,我对熵这个东西情有独钟,在我的脑海里,熵增是这个世界最为深奥永恒的最基本的定律。

那什么是熵增原理?熵代表了系统的混乱程度,熵越大分子的分布越趋于无序。对于一个系统,熵会自发性的增大。从微观上看,自发的热力学过程总是使分子由有序走向无序。

这就提出了另一个至关重要的概念:序。

什么叫序呢?从字面上很好理解,有序就是有秩序有规律,无序就是杂乱无章。但如果深入的研究这个问题,对序有个准确的定义是一件几乎不可能的事情,针对研究不同的情况有不同的回答,这个问题我在后面会谈到。对序没有个标准的定义,我认为这是为什么到现在也没有“熵学”这门学科出现的原因。

我对熵和序的兴趣是在读时间简史的时候产生的。书中有这么一段话对我印象深刻:当你把一块木头做成一个凳子时,单独看木头这个系统,它变得有序了。但如果把你和木头看成一个系统,你们变得无序了一些;你进行这个操作时,整个世界熵增了。

熵几乎是无所不能的,它可以涉及到自然科学甚至社会科学的一切领域。由于篇幅所限,对熵这个问题有个系统地讲述是不可能的。下面我就来杂乱无章的漫谈一下吧。

为什么我们这个星球生机勃勃,而其他星球死气沉沉呢?谁是最大的功臣呢?有人会说是太阳!的确,太阳绝对是地球上生命的源泉。太阳不断的向地球散发着能量。而这些能量正是生命的源泉。

但懂些物理的人也许会想:地球不断地接受来自太阳的光和热能,按理说地球上杂乱的分子热运动应该越来越剧烈才对,除非地球像太空的热辐射等于接受的来自太阳光的热辐射。但无论怎么说,太阳应该对地球的熵增(或者说无序)有贡献,怎么能是导致地球生机勃勃的(或者说有序)的原因呢?

其中的奥妙就在于植物的光合作用!从能量的角度来看,光合作用是将光能转化为化学能;从物质的角度来看,植物将空气中混乱的CO2H2O分子合成为自身较为有序的有机物形式,将这个地球整体上便变得有序了。但显然,根据熵增原理,有序是不可能凭空产生的,它是以太阳的无序为代价——核聚变。这时候,地球好像是那个变成凳子的木头,而太阳就是那个木匠了。长此以往,地球变得越来越有序,越来越生机勃勃。

植物所产生的有序不但供自身的生理活动所消耗,还是动物们的有序来源。要知道,就像做凳子一样,任何生理活动都是以消耗自身的有序为代价的,生物要想长时间的活下去,就必须有“序”的补偿,这个“序”显然就来源于植物。

所以说,植物才是生态系统最大的功臣,因为只有植物能从太阳中提取有序,贡献给地球。

能量是守恒的,但序不是。就像热力学第二定律所说的:永动机是不可能造成的。这就是说:序的转化并不100%的,并不是太阳损失了多少序,植物就固化了多少序。序的转化效率是很低的,也许一只食草动物吃了很多有序的植物,才能补回它生命过程中损失的一点儿序。而食肉动物生存的代价就更高了,不知要以太阳付出多少的熵增为代价。所以草要比食草动物多,食草动物要比食肉动物多。这种金字塔形的生态系统最最稳定的形式。为什么呢?从时间轴上来看,序是先从太阳到植物到食草动物到食肉动物,每一个阶段都有序的损失,所以序的转化效率就是金字塔的斜率。从空间上来看,这种金子塔的形状正是最能使生态系统在稳定的基础上“序”的总合最大的形式。斜率太大,生态体统就会垮掉;斜率太小,生态系统“序”就不饱和,生态系统就还有趋于更复杂的倾向。

从这个角度思考生命的起源也是行得通的。从能量的角度来讲无非是地球初始的自然条件使得地球能够蕴藏一部分太阳能(通过风雨雷电),而不是像其他星球那样完全是通过热辐射耗散掉。而这种风雨雷电的能量是不稳定的,它希望能找到一个适当的宣泄途径(热辐射是不够的,因为热辐射的能量等于吸收的太阳能)。转化为稳定的物质的化学能就是一个合理的宣泄途径。生命便是固化能量最最神奇的形式。

接着来看看生态系统中序的去处:通过生物体的活动转化为热量耗散掉。或者转化为自身的有机物,随着生物体的死亡变为其他生物的一部分;或埋入地下,经久变为石油或天然气。所以说石油是固化了的太阳能。

通过对熵与序在生命上的思考,或许能够得出一个有意思的观点。在我们寻找宇宙生命时,或许可以探测一下目标星球所吸收的能量和其辐射的能量的差值。如果长久以来都是其吸收的能量大于其辐射的能量,这就说明了此星球有将能量转化成稳定的固化形式的功能——很可能就是生命的作用。

下面来谈谈人了与熵吧。

人做为食物链的最顶端,本来就是序(即负熵)最大的消耗者。但他还不知足,对世界的有序状态做着无微不至的破坏。

可以说,在这个吃饱穿暖的年代,人类做的任何活动几乎都是对有序的破坏。人类正贪婪的从这个星球上攫取任何何以利用的负熵,为了让自己过得更舒适。什么用勤劳的双手创造财富,无非就是说:自己动手去掠夺这个世界上的有序吧!

植物是地球上生命的源泉,坎树就如同坎命一样。但看看人类坎树仅仅是为了烧柴而已,多么愚昧的做法。

制作精美的食物,费了很多心血,为这个世界添加了许多熵,结果呢?还不是给人一口吃掉。

工厂排出的废气废水,排出之前完全可以处理一下的。要知道,排出之后再收集它们可就难了。

什么叫有效率?什么才是人类明智的行为准则?我想应该以给这个世界添加无序的多少作为衡量标准。达到同样一个目的,人们应该尽量少给这个世界增加熵。比如说能坐公交车就不要自己开车。

设想一下,在同一个时间段内,人类的活动造成的无序和植物固化太阳能带来的有序那个多呢?若是前者多的话,那整个生态系统的寿命就都可以计算了。