Tinyfool(郝培强)@Donews Blog

思考的独立性就是我们存在的价值(一切文章都可以转载,但是必须保留作者签名(郝培强或者Tinyfool)和原文链接)

  DonewsBlog  |  Donews首页  |  Donews社区  |  Donews邮箱  |  我的首页  |  联系作者  |  聚合   |  登录
  219篇文章 :: 0篇收藏:: 2439篇评论:: 163个Trackbacks

公告

银杏泰克科技有限公司[站内搜索解决方案]

全能之眼

Google Maps API同步文档

codechina代码中国论坛

微尘程序员网站

[人肉搜索]人肉搜索引擎是不是就是搜索引擎的未来?

tinyfool的新头像

全能之眼热门地点

文章

收藏

相册

0-我的网站和Blog

1-文章精选

2-Tiny关注的Blogger

3-朋友

4-支持

存档


正在读取评论……


今天,到处都在传播这个新闻:

2005年12月19日,全球最大中文搜索引擎百度(www.baidu.com)首次宣布,百度根据依托其超过10亿的庞大中文网页数据库,对中国Blog站点进行深入挖掘和分析,截止到2005年11月底,在中文互联网领域,Blog站点达到3682万,Blogger人数达到1600万,平均每Blogger拥有大概2.3个Blog。

在对拥有相同域名的Blog进行去重的基础上,百度此次发布的Blog数据包括了主要Blog服务商的Blog站点以及可识别域名的独立Blog站点,但不包括某些服务商为用户自动生成的Blog站点。

根据百度公布的统计数据显示,到目前为止,中国大陆Blog服务商已达到658家,注册用户超过千人的服务商达到了330家,其中,中国名列前矛的Blog服务商排名分别为:

MSN Spaces (spaces.msn.com)

博客网(www.bokee.com)

天涯博客(www.tianyablog.com)

中国博客网(www.blogcn.com)

中华部落阁(www.mblogger.cn)

BlogBus(www.blogbus.com)

歪酷博客(www.yculblog.com)

博客园  (www.cnblogs.com)

网易博客(blog.163.com)

CSDN Blog(blog.csdn.net)

和讯博客(blog.hexun.com)

Donews Blog(blog.donews.com)

单看这个新闻,我本来是很高兴的,我认为Blog在中国的发展最需要的不是新浪那种只有自家人才能参加的全国中文博客大赛,也不不是搜狐那个虽然人人可以参加,但是人人也都可以任意作弊的全球中文博客大赛.我们需要的是第三方的独立的分析和数据,百度看来是合适的,百度没有自己的Blog服务,符合第三方的身份要求,百度的业务是全文搜索,容易拿到全面的统计数据,符合技术上面的要求.

然而看了这个结果以后,我很失望,我可以负责任的说,百度的权威数据没有任何参考价值.
MSN Spaces的高位人人都能猜到,我也不反对用不着说了,Bokee有没有那么大的用户量,我手里没有确切的统计数据我也不说了.

今天我们仅从我们随便就可以找到的数据来看看这次百度的权威数据有多么可笑.这次百度公布的前十名,其中有
中华部落阁(www.mblogger.cn),博客园  (www.cnblogs.com),CSDN Blog(blog.csdn.net)以及DonewsBlog(blog.donews.com)都是采用开源Blog软件.TEXT构建的,.TEXT默认会发布用户数等统计信息.除了DonewsBlog以外,其他的三家都提供了这个统计数据.刚才我看了下他们的统计,如下(图中红线框出了统计数据的位置):

中华部落格的统计信息,用户数52472,文章数280971

中华部落格的统计信息

Csdn Blog的统计信息,用户数101663,文章数248190

Csdn Blog的统计信息

博客园的统计信息,用户数12303,文章数79717

博客园的统计信息

从这三个BSP自己提供的统计数据来看:
中华部落格的统计信息,用户数52472,文章数280971
Csdn Blog的统计信息,用户数101663,文章数248190
博客园的统计信息,用户数12303,文章数79717

我们很容易看到事实上用户数量Csdn>中华部落格>博客园,文章数中华部落格>Csdn>博客园,而不是百度的统计中的中华部落格>
博客园>Csdn. Donews在改版前是提供统计的,我记得最后一次看到的统计数目是用户2万或者5万(有记得清楚地兄弟可以提醒一下,具体数目我确实记不清楚了),也绝对不在博客园之下.

我不知道百度是怎么做这个统计的,但是不管怎么做结果怎么会有这么大的问题呢??百度号称10亿的网页数据库里面包含多少百分比的Blog数据,这些数据占实际存在的Blog页面的多少?百度怎么区分在Bsp域名下的普通页面和Blog页面?百度怎么区分多个不同域名实际是一个页面的问题(中华部落格的页面就有多重地址,用户的三级域名的,目录形式的,不同目录的)?这些问题在百度公开统计方法之前我们很难猜到,但是我们可以看到结果是什么样的.我只能说这样一个完全不准确的统计报告,没有任何的参考价值.

是,我们需要一个统计数据.但是,我们不需要一份不准确的,不知道怎么来的,一份胡乱拼凑的统计报告.百度,你是真的想做点事情还是只是想抽个热闹,赚个吆喝?


Trackback: http://tb.donews.net/TrackBack.aspx?PostId=665436


[点击此处收藏本文]  发表于2005年12月21日 3:29 AM




正在读取评论……

发表评论

大名:
网址:
验证码
评论