今天,到处都在传播这个新闻:
2005
年12月19日,全球最大中文搜索引擎百度(www.baidu.com)首次宣布,百度根据依托其超过10亿的庞大中文网页数据库,对中国Blog站点
进行深入挖掘和分析,截止到2005年11月底,在中文互联网领域,Blog站点达到3682万,Blogger人数达到1600万,平均每
Blogger拥有大概2.3个Blog。
在对拥有相同域名的Blog进行去重的基础上,百度此次发布的Blog数据包括了主要Blog服务商的Blog站点以及可识别域名的独立Blog站点,但不包括某些服务商为用户自动生成的Blog站点。
根据百度公布的统计数据显示,到目前为止,中国大陆Blog服务商已达到658家,注册用户超过千人的服务商达到了330家,其中,中国名列前矛的Blog服务商排名分别为:
MSN Spaces (spaces.msn.com)
博客网(www.bokee.com)
天涯博客(www.tianyablog.com)
中国博客网(www.blogcn.com)
中华部落阁(www.mblogger.cn)
BlogBus(www.blogbus.com)
歪酷博客(www.yculblog.com)
博客园 (www.cnblogs.com)
网易博客(blog.163.com)
CSDN Blog(blog.csdn.net)
和讯博客(blog.hexun.com)
Donews Blog(blog.donews.com)
单看这个新闻,我本来是很高兴的,我认为Blog在中国的发展最需要的不是新浪那种只有自家人才能参加的全国中文博客大赛,也不不是搜狐那个虽然人人可以
参加,但是人人也都可以任意作弊的全球中文博客大赛.我们需要的是第三方的独立的分析和数据,百度看来是合适的,百度没有自己的Blog服务,符合第三方
的身份要求,百度的业务是全文搜索,容易拿到全面的统计数据,符合技术上面的要求.
然而看了这个结果以后,我很失望,我可以负责任的说,百度的权威数据没有任何参考价值.MSN Spaces的高位人人都能猜到,我也不反对用不着说了,Bokee有没有那么大的用户量,我手里没有确切的统计数据我也不说了.
今天我们仅从我们随便就可以找到的数据来看看这次百度的权威数据有多么可笑.这次百度公布的前十名,其中有中华部落阁(www.mblogger.cn),博客园 (www.cnblogs.com),CSDN Blog(blog.csdn.net)以及Donews
Blog(blog.donews.com)都是采用开源Blog软件.TEXT构建的,.TEXT默认会发布用户数等统计信息.除了
DonewsBlog以外,其他的三家都提供了这个统计数据.刚才我看了下他们的统计,如下(图中红线框出了统计数据的位置):
中华部落格的统计信息,用户数52472,文章数280971

Csdn Blog的统计信息,用户数101663,文章数248190

博客园的统计信息,用户数12303,文章数79717

从这三个BSP自己提供的统计数据来看:
中华部落格的统计信息,用户数52472,文章数280971
Csdn Blog的统计信息,用户数101663,文章数248190
博客园的统计信息,用户数12303,文章数79717
我们很容易看到事实上用户数量Csdn>中华部落格>博客园,文章数中华部落格>Csdn>博客园,而不是百度的统计中的中华部落格>博客园>Csdn. Donews在改版前是提供统计的,我记得最后一次看到的统计数目是用户2万或者5万(有记得清楚地兄弟可以提醒一下,具体数目我确实记不清楚了),也绝对不在博客园之下.
我不知道百度是怎么做这个统计的,但是不管怎么做结果怎么会有这么大的问题呢??百度号称10亿的网页数据库里面包含多少百分比的Blog数据,这些数据占实际存在的Blog页面的多少?百度怎么区分在Bsp域名下的普通页面和Blog页面?百度怎么区分多个不同域名实际是一个页面的问题(中华部落格的页面就有多重地址,用户的三级域名的,目录形式的,不同目录的)?这些问题在百度公开统计方法之前我们很难猜到,但是我们可以看到结果是什么样的.我只能说这样一个完全不准确的统计报告,没有任何的参考价值.
是,我们需要一个统计数据.但是,我们不需要一份不准确的,不知道怎么来的,一份胡乱拼凑的统计报告.百度,你是真的想做点事情还是只是想抽个热闹,赚个吆喝?

飘过~~~~
昨天也是偶然发现
DIARYCHINA.COM居然是BLOGBUS的~~
比如我的博客也可以用
http://www.diarychina.com/blog/blog/goto.php?BlogID=1102570
打开~~
^O^
乌白菜 —— 2005年12月21日 @9:36 am
好像没有新浪的blog?sohu的呢
tangjun —— 2005年12月21日 @11:15 am
To 乌白菜:
;) 有趣,Blogbus似乎没有宣传过这个域名
tinyfool —— 2005年12月21日 @11:23 am
to tangjun:
新浪估计用户量大些,sohu的估计小些,目前还没有看到他们的相关数据
tinyfool —— 2005年12月21日 @11:25 am
不管百度怎么统计, 至少不会像作者这样仅从注册用户数与文章数来比较吧!
dudu —— 2005年12月21日 @11:54 am
无知者无谓。
wcc —— 2005年12月21日 @12:57 pm
“清明上河图”一定是李彦宏很喜欢的一个比喻,不过,这个blog排行可实在是不够“清明”。一个blog排行不清不爽不算啥,可这样不清不爽的数据还要发布出来,一则动机令人不免有些怀疑,再则,百度的搜索技术……真有它自己说的那么好吗?
keso —— 2005年12月21日 @2:01 pm
<a href="http://www.donews.com/Content/200512/01fbad89977448b0a1e671f7e9f92daa.shtm">百度这个排名</a>,一出来就遭到了<a href="http://blog.donews.com/tinyfool/archive/2005/12/21/665436.aspx">质疑</a>,随后各种论点就开始纷飞了。<br><br>从评论中可以看到,suibian认为"衡量bsp的标准就是作者数和文章数?如果这样,不要baidu也罢.",dudu认为"不管百度怎么统计, 至少不会像作者这样仅从注册用户数与文章数来比较吧!"<br><br>那么,百度的排名是怎么得到的呢?<br><br><a href="http://www.donews.com/Content/200512/01fbad89977448b0a1e671f7e9f92daa.shtm" style="color: rgb(255, 0, 0);">源新闻</a><span style="color: rgb(255, 0, 0);">中明确提到了"<span style="font-weight: bold;">百度排名的依据是这些服务商收录的博客数量。</span>"(第二段,第一行)</span>,因此,tinyfool的质疑我认为是正确的。百度的统计数据确实存在问题。<br><br>事实上,我认为百度很难正确统计出bsp的排行榜,因为在百度搜索即可发现,各家bsp的收录数量都和实际数量差距甚远,这样的数据取样量是不可能得到正确结论的。当然,这种活动最好也就是看看而已,大可当做公关活动,一笑而过。如果上榜的据此而欢喜,没上榜的据此而沮丧,未免有些“数盲”了。<br><br>数据是试金石,这个事情中,不仅证明了大半人患有“<a href="http://blog.devep.net/virushuo/2005/12/05/a-read-impediment-on-network.html">不阅读综合症</a>”,更证明了缺乏独立思考的能力。<br><br>一个数据统计,基础是什么?基础是数学模型或计算方法。如果没有一个可重现,可验证,可证明的模型,那么这个统计就不具参考价值。百度的这个排名引用的数据确实简单了点,但这么简单的数据仍然错误百出。我不知道该说什么,或许这就是现状之怪。<br><br>keso的blog下面,某百度员工回复说“人们所说的所做的所看的所想的就是他们所希望所到的所希望做的所希望看的,任何逻辑的证明乃至结论,都是从这一前提出发去证明的。 ”,此言甚妙,亦可回赠于他。我也想请问他:你是否认为百度的数据正确?如果正确,是否百度发布的统计结果不允许质疑?如果允许质疑,且有明显证据证明错误,为何顾左右而言他?<br><br>老实说,已经见惯了百度所谓的公正与公平了。
demo@virushuo —— 2005年12月21日 @3:59 pm
光从网页的截图上看网站的blog数量未必正确,不一定能保证这个统计是真实的。
dongdong —— 2005年12月21日 @4:16 pm
如果不是“从注册用户数与文章数的比较来”评比
“名列前矛的Blog服务商”,那么我真不知道,如果真的来一次评选最佳BlogSP的话,还需要什么评选参考来打分?
Trackback数?每日浏览数?每日广告点击数?每日评论数?每日更新帖子数?
总要有些技术参考数值吧?
比如baidu要收购cnblogs,那么要拿出多少钱,总要用一些硬指标来衡量吧?
说得不对的地方,不要砍我。
zhengyun —— 2005年12月21日 @4:29 pm
我觉得百度说不说假话已经不是最重要的,最重要的是百度的数据的准备率有多少.
假设天涯和Donews各有100用用户, 但百度对天涯的收录率比对Donews要高的多, 所以百度可能收了90个天涯的但只收50个Donews的, 那百度就可以拿出来个结论: 天涯 vs DoNew=9:5, 这时候百度当然可以问心无愧的说:我的数据是真实的. 但我们是不是就该认为它是准确的呢?
我更倾向于百度是诚实的,但它的数据是不准确的.
Tiger —— 2005年12月21日 @4:40 pm
to dongdong:
我不是想试图提出一个新的排名出来,只是质疑Baidu排名的准确性。请注意,Baidu没有公布他的排名方法,空口白牙就出了个排名。而且其中的一些,明显和我们可以找到的数据冲突。
tinyfool —— 2005年12月21日 @4:56 pm
To zhengyun:
是啊,我认为百度的排名没有参考价值就是他说不出来他是根据什么数据来的,统计方法是如何做的,为什么和我们可以找到的数据冲突。
tinyfool —— 2005年12月21日 @4:57 pm
To Tiger:
百度对这些不同的BSP的收录情况,我也大概的看了下,确实很难保证公平(对不同的Bsp收录百分比不同,但是用这个收录数据去判断Bsp的用户数和文章数),不过这个比较复杂,不如一些直接的数据直观,所以没有放出来。
我也不认为百度在撒谎,因为目前看不出来他撒谎能给自己带来什么利益,但是明显他的数据不准确,经不起推敲
tinyfool —— 2005年12月21日 @4:59 pm
我就没听说过,有业务手段和职业品德都好的调查公司。
另外,陪强这个照片也太酷了吧?看起来有点不象熊猫。
王少磊 —— 2005年12月21日 @7:54 pm
打倒王老师
tinyfool —— 2005年12月21日 @8:28 pm
这个眼镜不是借的以前配眼镜测视力用的那种眼镜吧^_^
qyt —— 2005年12月21日 @8:57 pm
这个照片就是配眼镜的时候在眼镜店照的
tinyfool —— 2005年12月21日 @9:23 pm
为什么说百度的博客统计数据不准确?
http://web2.0focus.com/?p=21
antibaidu —— 2005年12月22日 @12:31 am
那个照片是我给照的。其中肖像权属于tinyfool,著作权属于我。
virushuo —— 2005年12月22日 @9:31 am
造型是我设计的,设计署名权是我的
tinyfool —— 2005年12月22日 @9:52 am
site:mbloger.cn 在google和baidu里没有收录,估计被拔了。
echo —— 2005年12月22日 @10:10 am
百度上面根本找不到关于这个排行的新闻稿,估计是某个小网站的炒作,打着百度的名义而已,大家都被骗了
匿名 —— 2005年12月22日 @11:12 am
点击率有时会成为一种激励,让人有动力,但过份在意或一味追求点击率时,它就会像万恶之源。
keso —— 2005年12月22日 @11:28 am
Updata:
哈哈,TINYFOOL,你的头像换的真逗
火星人?PANDA?
乌白菜 —— 2005年12月22日 @8:36 am
这篇文章 太偏激:
首先百度是一家搜索引擎公司;
其次,百度是一家有偏见的搜索引擎公司(在国内搜索行业是最公正的);
看这里的数据:
http://domolo.oicp.net/bbs/dispbbs.asp?boardID=25&ID=63&page=1
第三,百度的数据可以信赖;
csdn 的blog在经历了为期3个月的不稳定后,大批人转移,现在法帖量少的厉害。
别小看 博客园 能量大得惊人。
mbloger.cn 17 万索引量;
cnblogs.com 274 万;
blog.csdn.net 81万
天涯的 330 万。
看来我也要加入 对 bsp 分析了。
http://domolo.oicp.net/bbs/listboardid25.html
我要去桂林 —— 2005年12月22日 @8:55 am
没有参考价值,你还是参考了。
评定标准还是以alexa最能说明问题吧。呵呵
小庸 —— 2005年12月23日 @5:25 pm
百度的品行如何大家都很清楚,alexa排名只能作为参考,但不是准确的依据。
guestwind —— 2005年12月24日 @2:54 pm
ϡŹֵġٶBSP<br />oBlog Created
ŴԴIJ —— 2005年12月25日 @2:42 am
TO:echo
拼写错误了,少了一个G,应该是:mblogger.cn
猛禽 —— 2005年12月27日 @10:46 am