Published by hhalloyy May 4th, 2006 in 网事如风 32 Views
以前因为流量问题不得不更换服务器,从hhalloyy.de迁徙成了voiov.de。现在的空间是免费的,而且也不用像dreamhost一样考虑cpu占用问题。所以好长一段时间我仅是用普通的统计工具查看下来访人数,Referer和搜索关键字什么的,只知道每天的流量大概在700M。
可前两天从苟世录那里得知普通wordpress网站的流量并没有多大,一天也就200多M。用了Webalizer分析了服务器的日志文件,我傻了,现在已经每天流量都超过1G了,而且5月1号那天竟然1.59G多。赶紧查看是哪出了问题,结果发现了这么一个ip:61.135.145.204。网上一查原来它就是Baiduspider!!!(附图为06年5月份的前三天统计数据,点击放大)

惊叹之余做了下06年的日志数据分析发现:
1月,Baiduspider爬走的流量有756M,占了总体流量的17.44%。

2月,2.2G,占了总体的31.13%。

3月,13.6G,占了总体的69.5%。

4月,15.6G,占了总体的77.26%。

如此可见百度的蜘蛛在以几何级的速度茁壮地成长着。从4月份的数据统计来看,它的大小为Google蜘蛛的77倍左右。我只知道美国的人均国防开支是中国的77倍,却没想到我们中国的搜索巨人是他们小”谷歌”Google的77倍。
那么我们看看,百度蜘蛛吃的是粮食,吐的是不是丝呢?用百度搜索“voivo.de”(注意要带引号表示绝对包括,不可分割)字符串有2,960个条目,而用Google搜索有12,700个。这说明的只能是一个问题:别人的蜘蛛吐的是丝,可百度的弱智蜘蛛吐的却是大便。
虽然每天给我带来的ip访问量(非蜘蛛抓取页面)有80%是来自搜索引擎的关键字索引,而百度占了40%,但我还是决定把百度的弱智大蜘蛛屏蔽掉,一天一个多G,天知道这个蠢货在怎么爬。因为我使用的服务器不允许自建.htaccess,阻止ip访问肯定是不行了。所以只好在网站根目录加入了robots.txt,昨天一早加上了,可从昨天5月3号的统计看,仍旧是1.5G,说明根本没起作用。
在网上搜索下,发现刚好Keso五一那天收录的网摘中有一篇:闲谈二头猪:Googlebot和BaiduSpider,里面细述了这个弱智蜘蛛的流氓行径。concorde在评论中说,使用robots.txt只能保证你的网站不被收录,但不能保证Baiduspider不爬你。这好比你家未丢失过任何东西,但却有个流氓每天都来把你所有的东西翻个遍。从网上查到据百度的员工说,其蜘蛛名称有区分大小写,所以baiduspider这个字串的组合有2的10次方之多,也就是1024种,我倒!!!
做人要厚道,做蜘蛛呢?
Technorati : baidu
Del.icio.us : spider
在”自由人”弟兄的帮助下,终于搞到徐静蕾妹妹的3C壁纸了。自由人弟兄在他的blog上全球首发了这些图片,需要的,可以去看看。或者点击以下图片,从我的flickr下载。
或点击这里:http://flickr.com/photos/54708689@N00/
Technorati : 徐静蕾, 长虹广告
Del.icio.us : 3C
本文转载自http://voivo.de/blog/521.html,美文不敢独享。
web2.0从互联网的理念上更加强调了用户的参与,主导和贡献。所以在设计web2.0网络服务时,更需要以用户为中心遵从易用性原则。这样其网络服务才会从能用,到易用,直到通用。
我在学习机械结构设计时,对于所设计的机器有三个基本原则:funtionierbar,fertigbar和montagbar,也就是功能上可行,加工上可行和安装上可行。但这样建成的机械装备只是能用,真正意义上的机械设计还要经济性,操作可靠性,事故安全性,精确性,稳固性,人体工学性,外观设计性以及环保性上考虑,进行完善和优化机械设计。这样生产出的机械设备才会更加易用,才会被广泛的使用。同样在设计Web2.0网络服务时,也需要遵从这些原则:
1: 从可行性上考虑,必须是在功能上可行的,简单上讲它是有用的,并且最好有独特的创新,在代码编译上是可以设计实现的,而且在现有电脑环境上是可以执行的。
2: 从经济性上考虑,需要尽可能地节省投入费用,比如较短的开发时间,较少的运行维护费用,在功能上较长的生命周期,开放的API设计,等等都可以使网站服务构建的开支缩小。在网站服务使用收费方面,提倡部分功能收费,或者完全免费来吸引用户,或者开发相关的增值服务。广告的投放也要做到不影响用户的正常使用和吸引用户的点击。
3:从操作性上考虑,必须更大的程度上遵从方便用户使用的原则,比如多平台的设计,合适的字体大小,良好的字段定义,直观的图标寓意,方便的菜单和按钮设计,简单的操作步骤,可视化的编辑,Tag标签的定义,导入和导出功能,重复命令或者批量命令,实时执行任务(cron job),ajax的应用,人性化的设计等等都可以使用户更容易使用网站服务。
4:从网站安全和稳固性上考虑,不仅仅是在服务器端要求提供安全地,不中段地稳定服务,其实在用户操作上也需要采取一定的安全措施,比如即时保存的特性,撤销操作和恢复操作的特性等等。
5:从人体工学上考虑,避免出现过小的字体,刺眼的颜色,杂乱的背景音乐,和过长的操作时间周期等等来影响用户的正常使用。
6:从外观设计上考虑,网站界面要尽可能地吸引用户眼球,规范的网页设计,流行的大字体,明亮的色彩搭配和过渡,CSS圆角设计,清晰的链接表示,简约的风格等等都能给用户留以深刻的印象。
7:从网络社会性上考虑,要构成用户之间的交流,公用和分享是必须的,比如RSS,wiki,digg,Trackback,投票,评论,留言板,合作创作,团队创作,不同网站之间的数据交流和共享等等功能,不同网络服务需要对此做出相应的设计。
8:从可持续性上考虑,要始终维护和完善网络服务,比如及时的响应Feedback,广泛采纳用户的创意和意见,并且要不断修正网站的错误和持续功能上的更新,也就是所谓的持久性beta开发。
总之,一定要遵从以用户为中心的易用性原则来设计开发web2.0的网络服务。
精选一下我曾经写过的自我感觉良好的日志。aigaogao软件里面有个链接功能,可以自动链接自己写过的日志,方法是左键点住文件名,拉到左边的空白处松开。我用这个功能来制作精选集,不知道大家用过这个功能没有。以下这些日志都进过blog donews的首页,有些是头条。我在想,写着写着,我是不是就可以像静蕾妹妹、老潘大叔或者三表哥那样出书了。书名就叫“I说T事”,或者“博起秘方录”。畅想中。。。
- Blogger的四种境界
- web2.0时代我们该信任谁
- 方舟子与web2.0精神
- 搬家到donews的五个冲动
- To醒客:博客首先是良知
- 孵化器与BSP
- 我看blogger跳槽风
- rss订阅敢舍才能得
- 让馒头来得更猛烈些吧
- 营销你的博客(一)确定目标读者
- 营销你的博客(二)转变你的观念
- 营销你的博客(三)Product
- Donews:发展才是硬道理
- CNKI应该添加RSS聚合和关键字订阅
- blogger是否该露脸