Published by hhalloyy May 4th, 2006 in 网事如风 32 Views
以前因为流量问题不得不更换服务器,从hhalloyy.de迁徙成了voiov.de。现在的空间是免费的,而且也不用像dreamhost一样考虑cpu占用问题。所以好长一段时间我仅是用普通的统计工具查看下来访人数,Referer和搜索关键字什么的,只知道每天的流量大概在700M。
可前两天从苟世录那里得知普通wordpress网站的流量并没有多大,一天也就200多M。用了Webalizer分析了服务器的日志文件,我傻了,现在已经每天流量都超过1G了,而且5月1号那天竟然1.59G多。赶紧查看是哪出了问题,结果发现了这么一个ip:61.135.145.204。网上一查原来它就是Baiduspider!!!(附图为06年5月份的前三天统计数据,点击放大)

惊叹之余做了下06年的日志数据分析发现:
1月,Baiduspider爬走的流量有756M,占了总体流量的17.44%。

2月,2.2G,占了总体的31.13%。

3月,13.6G,占了总体的69.5%。

4月,15.6G,占了总体的77.26%。

如此可见百度的蜘蛛在以几何级的速度茁壮地成长着。从4月份的数据统计来看,它的大小为Google蜘蛛的77倍左右。我只知道美国的人均国防开支是中国的77倍,却没想到我们中国的搜索巨人是他们小”谷歌”Google的77倍。
那么我们看看,百度蜘蛛吃的是粮食,吐的是不是丝呢?用百度搜索“voivo.de”(注意要带引号表示绝对包括,不可分割)字符串有2,960个条目,而用Google搜索有12,700个。这说明的只能是一个问题:别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。
虽然每天给我带来的ip访问量(非蜘蛛抓取页面)有80%是来自搜索引擎的关键字索引,而百度占了40%,但我还是决定把百度的弱智大蜘蛛屏蔽掉,一天一个多G,天知道这个蠢货在怎么爬。因为我使用的服务器不允许自建.htaccess,阻止ip访问肯定是不行了。所以只好在网站根目录加入了robots.txt,昨天一早加上了,可从昨天5月3号的统计看,仍旧是1.5G,说明根本没起作用。
在网上搜索下,发现刚好Keso五一那天收录的网摘中有一篇:闲谈二头猪:Googlebot和BaiduSpider,里面细述了这个弱智蜘蛛的流氓行径。concorde在评论中说,使用robots.txt只能保证你的网站不被收录,但不能保证Baiduspider不爬你。这好比你家未丢失过任何东西,但却有个流氓每天都来把你所有的东西翻个遍。从网上查到据百度的员工说,其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种,我倒!!!
做人要厚道,做蜘蛛呢?
Technorati : baidu
Del.icio.us : spider
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=856939