如何测试搜索引擎的索引量大小——转载
摘要:背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。
首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华,去其糟粕,挑选出有价值的网页进行索引。因此,对用户而言,搜索引擎的索引量大小才更有意义。
其次,无限制增大索引量并不一定能保证搜索质量的提升。一方面,在全面性指标中,除索引量外,还需要考虑到收录网页的质量和不同类型网页的分布。另一方面,搜索引擎的质量指标体系要保证四方面的均衡发展,不是依靠单个指标的突破就可以改善的。目前包括雅虎中国在内的主流中文搜索引擎的网页索引量都在20亿量级,基本上可以满足用户的日常查询需求。
(全文共6708字)——点击
此处阅读全文
自己建设的中国社会科学信息门户开通了
摘要:中国社会科学信息门户(www.cssig.org)是国内最先进的一个面向学术用户的网站。 (全文共413字)——点击
此处阅读全文
转载——搜索引擎的未来
摘要:早些时候,雅虎、Google和微软负责搜索业务的人士在沃顿科技论坛谈了对未来搜索引擎的看法,三家公司对待搜索引擎的发展路径看法截然不同。
雅虎方面认为,搜索引擎的下一个重大的创新将是”社会搜索”,它能够实现信息相关度的民主化,普通用户来决定对于他们和其他用户而言什么是重要的。
(全文共2388字)——点击
此处阅读全文
转载——社会搜索的两个进步
摘要: 作为社会搜索服务的忠实用户,最近这里发生的变化“很让人欣慰”。百度知道、新浪爱问的人气一路扶摇直上,越来越多的网民开始接受并参与这种由在线人群实施知识管理的搜索形式。除基于文字的搜索外,雅虎在2005年相继收购了照片共享网站Flickr、音频共享网站WebJay等几家公司,在打造多元搜索社区上投下重注。豆瓣网的崛起则从一个侧面验证了人们对传统信息传播的深情眷恋,其创新的评论推荐系统实现了由在线人群运作的信息筛选与过滤。 (全文共2690字)——点击
此处阅读全文
我给博客大佬们出个题目考考
几乎每天都看Donews的新闻、评论和博客大佬的文章,看的多了,就有了一种感觉,这些博客大佬们口口都是web2。0,rss,tag,分类网站,播客。。。。。概念一个比一个新鲜,看的实在是过瘾,但是,关了电脑,躺在床上琢磨了一下,这些大佬们的谈论中好像少点什么。。。
考虑了半天,今天突然开窍了,大佬们都是记者出身,没有学习过信息科学的理论,不信我就出个题目考察一下:
1、什么是布拉德福定律?
2、什么是奇普夫省力法则?
3、什么是洛特卡定律?
4、什么是普赖斯定律?
也许你会问,这些概念与博客有关系吗?
答案是肯定的,因为这些都是文献计量学的概念,如果我们将博客看作文献的话,我们也可以发展出博客计量学,或者说这是文献计量学的新发展。
不信,你可以研究一下,核心博客、博客的文章产量、博客文章的半衰期。。。。这些概念都是很有价值的概念,怎么个有价值法,窃听下次分解。
知识孤岛如何向知识大陆转换---博客的知识管理功能改进方向思考
摘要:作者的观点给我一个启发,一直以来,我们都在寻找博客在知识管理上的价值,我们也找到了一些,用目前流行的说法就是,作为web2。0代表,博客发挥了普通网民的力量,让所有网民成为了信息的创造者和组织者。
事实上,紧紧看到这一点,并不能说明博客已经成为了社会性的知识组织工具,事实上,目前的博客组织架构还仅仅停留在个体组织阶段,也就是所个人博客空间中的信息和知识还是一个个知识孤岛,整个博客系统还没有从整个系统角度(咱不从整个社会角度即所有个博客运营整体的角度)提供一套完善的知识组织体系。目前的单个知识孤岛间的联系是由博客作者的友情连接变相实现的,那没到底有没有一个机制实现这些单个知识孤岛间的自动关联呢,也就是在没有办法实现“知识大陆”(单个博客运营商网站空间内的信息和知识)互连的情况下,“知识大陆“内部的孤岛能否实现有序组织呢?
(全文共1667字)——点击
此处阅读全文
招募学科门户建设志愿者(兼职)
摘要:我是一名中国高校的普通的研究者,在校多年,深感中国学术界研究条件的坚信。
尽管今天,互联网资源已经及其丰富,网络上的各种用户也已经覆盖社会各个方面,其中研究人员不在少数。
我们的学术资源依旧十分稀少,特别是放到互联网上的可以自由下载的学术资源还十分稀少,这与国外的现状相比,实在是令人遗憾。
(全文共646字)——点击
此处阅读全文