我在这里写过很多讽刺百度的话,这次真的不是讽刺,是求助。
我帮朋友代管一个论坛,是phpbb的。
从1月份开始,百度非常凶猛的抓取这个论坛的帖子,多次导致服务器数据库连接打开过多而死掉。众所周知,google是不会抓取到论坛内部的,而百度坚决不肯放过,一个只有几百个帖子的论坛,竟然被百度抓走了6000多页,而且每天差不多都要这么抓一次,这可怎么办?一个月有超过一半的流量是被百度抓走的。我试过了很多方法,robot.txt不管用,抓住了百度的一个c段,封掉,甚至我已经在apache里面封掉了百度的agent,竟然也不管用。我真是没办法了。我现在就想请百度把我封掉,哪位灵通人士知道有什么办法能作到,请给我指点指点。
谢谢了。





robot.txt x
robots.txt o
concorde —— 2006年02月05日 @11:52 am
不管用阿。百度不遵守robot.txt是路人皆知的秘密了。
virushuo —— 2006年02月05日 @12:14 pm
应该不会不遵守robots.txt 把url贴出来看看。
concorde —— 2006年02月05日 @12:44 pm
很简单,,作弊就可以了.
比如堆积关键字,加满作弊网站的连接…
或者到处留言,很快你就会小时百度中的..
石头 —— 2006年02月05日 @1:37 pm
很简单,多贴点骂百度的文章就行了
nosoft —— 2006年02月05日 @1:50 pm
不遵守robots.txt很多人测试过很多次了。真的不管用。
virushuo —— 2006年02月05日 @2:12 pm
demo@virushuo在谁知道怎么样才能让百度封掉我的网站说坛子被百度抓死了.如果百度要抓你,你只好利用它的不足.比如说,百度的spider好象不懂javascript吧?但是browser懂的,你做个首页javascript自动转…
美人她爹 —— 2006年02月05日 @2:14 pm
百度绝对遵守robots协议,我用的就很好。
可能是你写的格式不对。
文件名应该是robots.txt,具体写法看这里:
http://www.baidu.com/search/robots.html
小飞 —— 2006年02月05日 @2:48 pm
抓取这个论坛的帖子,多次导致服务器数据库连接打开过多而死掉.—被搜索引擎关注应该不是坏事情啊,我觉得是否从其他角度考虑解决问题?看看程序是否优化一下?
浪漫圣诞节 —— 2006年02月05日 @2:55 pm
找李颜红问问吧
烧海 —— 2006年02月05日 @3:27 pm
哥哥,我同情你一下吧.
瑞瑞 —— 2006年02月05日 @3:41 pm
逻辑错误……
如果屏蔽 agent 他还能抓到,那肯定屏蔽错误或未生效,否则 agent 都没写 baidu 你怎么确认是它?
还有第一个回复就说的是 robots 不是 robot,要有 s 的,不过看你写的第二个回复好像没看明白。
虽然我觉得这公司挺混,但这次被骂的有点冤
Platinum —— 2006年02月05日 @3:47 pm
老大!有这么邪乎吗?一般百度会收录一个网站2万多页。
智网.王川 —— 2006年02月05日 @3:58 pm
放GG AD~~
woobc —— 2006年02月05日 @4:30 pm
谁欺负我兄弟,我欺负谁:)
王少磊 —— 2006年02月05日 @4:40 pm
年初二,公司的同事说,“百度终于封了我们淘情网(www.taoqing.net)”,听完此消息,笔者心里不知道是喜是悲。因为年前已经有好几个百度广州分公司的人员打电话过来,要求我们做推广,特别其中一男的,语气特别不爽,所以对于此次封站,心里大概已经有底了,只是没想到来得这么快。
注:在百度用"site:taoqing.net " ,若没有出现网站的信息,则表明此站被封!
年初八,再次跟百度广州的人商讨解封的事宜,他们答复—“我们百度不会轻易封客户的网站,封站的原因肯定是你们进行了严重的作弊”。可笑的是,当我问他,我们究竟那里作弊了?让我以后好注意一下,一个技术经理,竟然指不出来。还说–“你只要做了竞价排名,关键词是无限的,而且全部排第一都可以”。笔者才算真正明白,百度为什么会在北京拥有20多人的反作弊组,为什么一旦封了站,便3年内不得解封,是想逼各大站长送钱给它。
可笑的是,李彦宏为免太不了解中国国情了,国人自古以来便遇强愈强,遇软便软。意思是说,百度硬要逼站长们做推广,站长们越不买帐,反而对它愈厌恶,倘若给站长们一点好处,它们自当涌泉相报。诚言,确实有一些站长急功近利,做了一些作弊的事情,但有更多的站长们对技术是不熟识,有时一些急进的举动,便被判断为作弊,从而判其死刑,则是百度本质的问题。说得好听点,就是借刀杀人,借作弊之名,要站长们做推广。
百度解封的权力集中到少数人手里,也正是为了钱更多地流入大股东手里,把工作人员的额外收入(解封)给扼杀了。
现在,越来越多的个人站长认为,百度现在长了翅膀、羽毛硬了,便开始变得忘恩负义。因为它忘记了,它默默无闻的时候,没有流量的时候,正是获得了中国千千万万站长的支持,才得以成长,并且上市。当它自己成长,各大站长需要帮助的时候,中国互联网业需要发展的时候,百度却把自己定位为了一个“印钞机”,中国的站长们、中国的电子商务、中国互联网业想流量、成长就必须给我送钱。
也许百度现在通过这种途径,还能赚些钱,但当它赖以生存的衣食父母们,不做推广便都被封一遍之后,大家遍不再倦顾百度,也肯定不会再做推广,因为百度搜索结果的前几页全部是广告,效果越来越差。
庆幸马云的雅虎重归搜索策略,也很喜欢李开复带领google中国大干一场,百度则是被越来越多的站长所抛弃。封吧!请百度把中国互联网的所有网站都给封了,倘若不封,到时候中国千千万万的网站都告你侵权,到时候你赔到脱裤子恐怕都陪不完。
淘情网 —— 2006年02月05日 @4:45 pm
我放的就是robots.txt,文字里面写错了。
virushuo —— 2006年02月05日 @5:19 pm
对了,Platinum,以前猛禽也做过实验,结论也是robots.txt不管用。。
virushuo —— 2006年02月05日 @5:26 pm
得,刚刚看了一眼,这次不是收录6000多了,是收录了10,400个,老天,我有这么多页面我自己竟然都不知道。
virushuo —— 2006年02月05日 @5:43 pm
买他们的排名服务,一段时间后停掉,就OK了,Yahoo中国同理,滑稽不?
Laolao321 —— 2006年02月05日 @5:57 pm
Watson —— 2006年02月05日 @6:39 pm
加入反摆渡联盟
Watson —— 2006年02月05日 @6:39 pm
virushuo,百度对robots协议是支持的,除了那个专门讲robots.txt怎么写的页面外,你还可以看看这个,了解关于百度spider的更多信息:
http://www.baidu.com/search/spider.htm
小飞 —— 2006年02月05日 @7:05 pm
我知道这个啊,我就是按照这个写的啊。
virushuo —— 2006年02月05日 @7:07 pm
你写信举报你自己的网站在排名方面作弊如何。
PS:看了《小强》一剧后,我建议你试试小白兔,效果不错的。
Seo1 —— 2006年02月05日 @8:20 pm
放GOOGLE广告就行了,要不了多久就给你封了。
我们就是这样被百哥干掉的
downreg —— 2006年02月05日 @11:00 pm
baidubot确实超级猛,不过Sohu的bot正在猛追上来。如果主机商的log没错的话,我的Blog在1月份收到Baidubot请求超过200万次,千把篇贴子的小地方,也不知道它在干嘛。亏得我现在流量还够用。
cathayan —— 2006年02月05日 @11:30 pm
嗯。sohu的也得封。如果是静态页我也不怕,但是论坛没有静态页的。这么干简直就是涸泽而鱼。
virushuo —— 2006年02月06日 @12:15 am
这种事大概只能找百度的人解决吧,我说过的那个网站在向百度投述后,现在已经搜不到了。
猛禽 —— 2006年02月06日 @10:10 am
猛q,怎么投诉阿?我想让我所有的站都不要让百度访问。
不过tmd现在sohu也确实开始疯狂了。也得想个办法对付。
virushuo —— 2006年02月06日 @10:13 am
我有个站被百度封了。有需要的话我把数据给你。
wwwuwei#sohu.com
weiwu —— 2006年02月06日 @12:00 pm
原来觉得百度还算不错,现在看来百度就是个垃圾
偶的BLOG什么都没有做,就莫名的被百度给封掉了。。。
晕~~
百事可乐 —— 2006年02月07日 @10:47 am
我真羡慕楼上的。2-6号,百度又抓了一次,服务器又挂了。我服了。
这次robots.txt我可都设置正确了,他就是不听这个,很多人都试过不行了。楼上说有用的,你们那是幸运。
virushuo —— 2006年02月07日 @1:40 pm
前几天说的希望禁止百度抓取的问题,今天再次出现。我于2月5日重新设置了robots.txt,名字是robots.txt,没错的。
内容是
User-agent: baiduspider
Disallow: /
但是,2-6日百度又抓了一次,服务器又挂了,现在已经被主机商停了,所以我没法给你看我网站上的robots.txt了。我相信是对的。
virushuo —— 2006年02月07日 @1:57 pm
国人重致中和,眼看百度要在国内三大se中胜出之时,自己给自己的长久名声埋了一个炸弹——也正好给google/ali以蚁穴。
还是三大se平分天下为好,中和则众活。
陶然 —— 2006年02月07日 @3:28 pm
百度是遵守robots.txt的,不过它不是每次都抓一下robots.txt,所以你得等最多一个星期才能生效。
飞天猪 —— 2006年02月07日 @6:50 pm
百度够狠
websunway —— 2006年02月09日 @8:39 pm
百度的恶性行为太多了.
我从来都用GOOGLE做主页,BAIDU只有在找歌的时候用用.
林 —— 2006年02月09日 @8:49 pm
找MP3我觉得用SINA也不错。
如果 GOOGLE 的链接 RESET 了,我就用 YAHOO,用 MSN ,用 A9,反正就是不用 BAIDU。
Patrick He —— 2006年02月10日 @10:16 am
try this and put the robots.txt under public_html/
User-agent: *
Disallow: /
flow —— 2006年02月10日 @6:29 pm
Baidu不遵守robots协议。我修改了robots.txt一个多月之后它还在死抓。由于我的是动态网页,所以在前头加了一段:
$useragent = $ENV{‘HTTP_USER_AGENT’};
if ($useragent =~ /Baidu/) {
warn("Baidu, byebye\n");
$r->internal_redirect("http://www.wowchina.com/");
}
既然huo你也是动态网页,也可以这样做。
Ben —— 2006年02月14日 @8:03 am
我给大家一个例子,大家搜索 "游侠网",百度愣是搜不到,google第一个就是
曾经白云飞 —— 2006年02月18日 @9:04 pm
百度把我站给喀了
不过也就算了
一直我都是用雅虎的
向左走的鱼 —— 2006年02月23日 @9:24 am
http://www.in35.com
像这个网站的就会封的,,
setel —— 2006年03月01日 @3:30 pm
现在,越来越多的个人站长认为,有些搜索引擎现在长了翅膀、羽毛硬了,便开始变得忘恩负义。因为它忘记了,它默默无闻的时候,没有流量的时候,正是获得了中国千千万万站长的支持,才得以成长,并且上市。当它自己成长,各大站长需要帮助的时候。。。。不过我发现有一个搜索引擎,《五洲搜索》好像对个人网站真的很贴心,而且是大型的搜索引擎,我说它大型是因为它的数据广泛,搜索规则精确,不是一般的,随便搞一个目录罗列就说是搜索引擎,真正能够称为搜索引擎的,再起码是一.数据广泛,二.有数据采集系统,三.有独立的网络数据库而不是小偷,四.有自己的中文分词系统,每天能够处理的网站不少于10万个,而不是人工分类判断,人工审核网站,在质量和数量上是远远达不到的。而且对于有些专业的领域,审核人员的知识面就达不到。
五洲搜索引擎 —— 2006年05月06日 @5:34 am
是的,我看过,比如搜索“和服”那么搜索的结果只能是日本的服装类型的网站,而不会把“技术支持和服务”这样的包含“和服”字样的网站搜索出来,还有就是输入“模具设备”那么一般的小型搜索引擎或罗列型的小搜索引擎,只能把这四个字排列在一起的网站才可以找到,而实际上包含了这个内容的其它网站根本就找不到,五洲就厉害在这方面。
websou —— 2006年05月06日 @5:51 am
我也试过,其它小的目录引擎输入“模具塑料”,和“模具pcb”,一般是没有结果的。但是几个大型搜索引擎就可以,包括五洲搜索。
豹牙 —— 2006年05月06日 @6:08 am
五洲搜索的性能的确比较强大,甚至可以搜索到其它搜索引擎没有的东西,据说是成长最快的一个搜索引擎。
铁豹 —— 2006年05月10日 @4:48 pm
提升网站的等级,在五洲搜索的下面有一个链接加入以后,注册马上就可以看到效果,对alexa排名的提升十分有效,这是一个最简洁,好用的,排名提升系统。
SSZY —— 2006年05月11日 @12:34 pm
推荐给需要MSSQL数据库的站长,最便宜的SQL数据库。互景联盟专业MSSQL空间, (150M 50元/年),(400M 150元/年) (600M 200元/年),提供远程连接调用。
SSZY —— 2006年05月11日 @12:58 pm
百度的工作人员服务态度极差,没有责任感。只让打没有人接的电话。留了三个。全没有人接。打了三天。没有人接电话留一个空一个
匿名 —— 2008年07月30日 @11:58 am
我的网站会不会被封掉呀
http://www.shoushenjie.com
瘦身街 —— 2008年09月17日 @3:27 pm
我的都没有被收录!!你居然!!!
泡泡免费高清影院 —— 2009年05月24日 @1:52 pm
我的网站百度根本就没有收录,真晕
http://www.zysublime.com.cn
http://www.zhengyushenghua.cn
我的没有被收录 —— 2009年09月27日 @10:14 am
百度一直不更新
http://www.lady9.cn
九分女人 —— 2009年10月23日 @4:07 pm