wiki.donews.com连续几天,定时被百度的抓取机器人抓到系统停止响应。
 
拜托百度,不要这样抓内容了。就算抓,也应该用1个线程来抓,只抓更新的内容,何必每天抓一次,而且用无数个线程,而且每次都要抓全部内容,还不放过任何wiki的历史页面,甚至连错误信息都要原样搬走。
 
这种抓取方法,谁受得了?


update:对付百度恶意抓取的办法
                    


70条评论

  1. 还是百度牛

  2. 根本就是技术不过关.

    不知道他们最擅长的人工干预能否起作用.

  3. 百度,来抓我吧!用力的抓!身在福中不知福啊!

  4. 烦恼是各种种样的。

  5. 烦恼是各种各样的。

    :)

  6. 自己提高点技术吧,今天没了baidu,明天可能来个更狠的dubai

  7. 呵呵,百度就是这样的。。

  8. 得瑟的不轻

    不想让百度抓写个robots不就行了.

  9. 此抓非彼抓

  10. 今天看到一个未经证实的说法,baidu 的抓取和网络审查有关。

    听起来很阴谋论,大家自己判断。

  11. HIUHIU,直接和百度联系,解决起来会更快啦.

  12. 不让我抓,那我封了你

  13. 现在的人真不知足

  14. 呵呵!baidu是人工干预的!

  15. 没人觉得这个事情很奇怪吗?

    一个blog上普通的一篇帖子,居然在首页第一条飘红大字体显示出来,这条消息真的比那些IT新闻和IT评论都重要吗?

    怎么看都是donews特意搞出来的事情

  16. 干脆不让他抓了算了 robots.txt

  17. 楼主说的抓意思来抓WIKI的词条来补充百度的词条,而不是搜索库。

  18. 哪啊,这个不是它技术不过关,它是故意的

  19. 特别提醒一下,robots.txt不管用。robots.txt是让搜索引擎不把你的内容放出来让别人找到,并没说不让他抓。所以,照抓不误。

  20. 这还用看嘛,Donews一直旗帜鲜明地打击百度,连同keso挑的那几个百度鸡吧的帖子,这帮人,搞斗争狠着呢

  21. robots.txt could disallow baidu agent from crawling a site or a folder.

    crawler should periodically read robots.txt before download pages from that site.

    If baidu does not follow robots.txt, sue it.

  22. 屏蔽百度ip 。

  23. 如果是访问量这么大,你会怪用户太多,拜托用户不要访问否?

    所以归根结底,自己程序和架构太滥了,因此自己赶快优化程序和系统架构吧,可别浪费了这么好一个调优机会哦

  24. 拜托,这是管理员的系统公告….

    Donews的系统公告为什么不能在Donews首页"第一条飘红大字体显示出来"

  25. 看起来有点奇怪

  26. donews就忽悠吧,不愧为MOP的枪手

    那天是不是要怪这伙网民访问你网站量太大,让这伙人以后别来啊,

  27. 这样的文章(甚至算不上文章)还放头条,拜托~~~

  28. baidu很讨厌,什么都抓

  29. 唉,最近被百度把二级域名删除了,太郁闷了!!!!

  30. 你要是觉得Baidu抓的频,可以robots.txt

    如果还觉得不够,可以封ip

    结果你什么都没有做,却写了个blog放到首页上,打算让Baidu的人看到以后处理,这种办事的方法只能让我觉得Donews完全在针对Baidu

  31. 昨天骂腾讯,今天怪百度

    求啥?想出名啊?

  32. [23:46:45] Bruce Wang(number5) 说: // 教donews一招, 把所有百度爬虫的都引导到百度自己的机器上

    昨天人家跟我说的,具体怎么做我也不知道,告诉你一下 ;)

  33. undersound 你这个办法可以,我用过。不过他ip实在太多了。。

  34. 什么破服务啊..

    人家免费给你做压力测试呢.

  35. http://www.yymp3.cn 短短 1个月 流量彪升 10万ip 什么原因?

  36. http://www.yymp3.cn 短短 1个月 流量彪升 10万ip 什么原因?

  37. donews的粪青多了。。

    google放个屁都是香的

  38. 同意楼上,其实Google也一样,以前cnblogs就因为Google的机器人挂过,后来站长dudu不得不针对Google搜索做些手脚,让它不再那么BT的狂抓。

  39. 想让他抓没得抓.

    本贴关键字应该是 抓

    :)

  40. 没看法

  41. 我觉得你很幸福..居然这样受到baidu的关心

  42. 一般来讲,小网站希望搜索引擎来抓取信息,可是一些已经不靠搜索引擎带来流量的网站或者说已经达到靠口碑相传的网站,就可能不希望如此。记得欧洲的一家网站就曾经和google打官司,不允许其抓取其信息,但不知道结果如何。

  43. 笑一下,一家准BSP居然经不起baidu爬虫的页面抓取.

    怎么好意思把这东西挂首页.

  44. 百度我知道你很牛~~~太厉害了啊~~~不过放过wiki吧,好可怜的.

  45. 外面的人想进来,里面的人想出去。

  46. 靠,自己技术不过关,还怪别人?

  47. 楼上若干说技术不过关的sb,你们知道程序操作和人工操作相差的数量级吗?

  48. 那个名字叫“说技术不过的是sb”的sb,我可以告诉你我自己经历的事实。

    我的网站写了robots.txt Baiduspider照抓不误,我的blog更新频率一周不超过3次,但就在前天,Baiduspider在24小时内至少访问了我的blog 1万次以上。

    220.181.19.96

    如果这个ip不是baidu的,那我收回我如上所说一切,反之,我问候lyh全家。

  49. 百度再这样就要人神共愤了。

  50. 如果没说错的话,你应该是donews.com枪手!!!

  51. 写robot.txt只是防君子不防小人

  52. donews无疑是倾向google的,但是这也是客观的。百度实在是不怎么样,这个贴直接在首页飘红的确有值得商榷的地方,管理员被百度阴的愤怒了,发出这样的blog可以理解。

    但是楼上许多人,莫名奇妙的骂donews,说什么设置robot.txt的就实在让人无法理解了,huo的blog里很早就讨论过怎么robot对百读没用,而许多人自己没有尝试,打开了这页面就直接开骂,实在让人费解。。。。。。

  53. 或许是你有baidu百科需要的东西。

    根本解决方法就是把你的2级域名wiki换掉

    吧。:)

  54. http://www.williamlong.info/archives/502.html

    月光博客的一篇文章《百度和Google谁更能搜索色情信息》。

    另一篇关于baidu百科的《百度百科正式亮相》

    http://www.williamlong.info/archives/478.html

  55. 请教一下,我的首页上那个"聚合"怎么不见了呢?有什么办法把它弄回来吗.

    还有,donews要是能把首页上"最近评论"的数量设置得多点就好了,比如十个,这样访问者就更方便相互交流了.

  56. to frency:

    有些模版似乎没有那个。

    地址是blog.donews.com/yourname/rss.aspx,你也可以自己在公告里面连接上这个地址。

  57. 谢谢virushuo

    我是在老白的指引下偷的keso的模版,打小抄终究是打小抄,嘿嘿.

  58. donews的粪青多了。。

    google放个屁都是香的

  59. 有好多百度spider是假的,百度spider组若干年以前就修正了偶尔出现不遵守robots.txt的bug。

    嘿嘿,我在家研究spider乱抓有时打着baidu spider的旗号(有时google),不过我只是512k的adsl,不会把网站抓死。

  60. Donews要打响自己何必拿百度开刀呢,说google在抓取不是更牛!

  61. 干吗不让抓,原因很简单。

    用的人少了,怕影响小;

    用的多了,流量大了(特别是机器人),带宽不足,IDC 要额外的银子

    左右为难啊

    :)

  62. 没看过百度的广告???“百度,想抓谁就抓谁”

  63. 有个笑话:

    有个丑姑娘一直嫁不出去,总希望有人强奸她,终于有一天,被流氓从身后拿麻袋装了,用车运到一僻静处。这姑娘心中暗喜,等流氓打开麻袋准备行事时,流氓不干了。又将姑娘送回原处,可她死活不下车,流氓只好弃车逃跑。

    流氓就是流氓,强奸了丑姑娘,满足了她的需求,但还是流氓。强奸了漂亮姑娘,你也不能怨别人长的好啊,靠!

  64. 有个笑话:

    有个丑姑娘一直嫁不出去,总希望有人强奸她,终于有一天,被流氓从身后拿麻袋装了,用车运到一僻静处。这姑娘心中暗喜,等流氓打开麻袋准备行事时,流氓不干了。又将姑娘送回原处,可她死活不下车,流氓只好弃车逃跑。

    流氓就是流氓,强奸了丑姑娘,满足了她的需求,但还是流氓。强奸了漂亮姑娘,你也不能怨别人长的好啊,靠!

  65. 好可怜,大家都这么吵吵,过来坐坐喝杯茶

  66. 改天自己研究个Spider,专抓自己的网站。

    提高流量,哈哈

  67. 归根到底还是为了眼球经济~““““

    鄙视donews.com!

  68. 狗咬狗。。

  69. 千橡和百度都不是什么好鸟,让他们咬去吧

发表评论

评论也有版权!

无觅相关文章插件