Google日渐强大,其中一个很大的副产品就是文章一提Google就会引起关注。后来有几个国外媒体牛人更是发现Google和隐私联系在一起的时候关注度往往会更加升温。这在国外很寻常很合理,老美是深刻怀疑政府的,怀疑一切有巨大能量的实体,害怕他们的发展最终造成专制和人民自由权利的丧失。

然而有些家伙作的过火了,Gmail出来的时候,他们把“无需删除任何邮件”的宣传语解读为“不能删除任何邮件”,把“准确地找到所需的邮件”这样的功能描述解读为“你的邮件将会在搜索引擎中找到”,他们用这些明显可以造成恐慌的刻意的误读(1)提高了他们的报纸销量,然后再在Google做出详细解释的时候,把销量再次提升。

这些国外的记者最终影响了国内的很多媒体和Blogger,我们经常可以看到很多媒体上面的头条是如下的耸人听闻的消息:

隐私问题突显Google逼近信任的十字路口
Google隐私安全将成本世纪互联网最大的隐患
Google存储海量私人信息隐私问题不堪设想
搜索引擎:搜出你的隐私来
Google威胁美国人隐私
Google成偷窥帮凶可控制全球网络摄像头
万人遭偷窥!Google大开摄像头后门
Google凭什么泄露我的简历



今天我就看到一位据说是微软员工的Blog上面在谈今年7月份Google封杀CNET一年的事情。姑且不论我们知道Google早已经解除封杀令,估计不论我们知道这个封杀仅仅指的是不接受CNET记者的采访,而不是在Google搜索上面封杀CNET。(2)

我感到疑惑的是:

这件事情中,发布他人隐私的人没有人批评,挖空心思找人家隐私然后登在报纸的人没有人批评,但是大家都在批评被人侵犯了隐私的Google,有意思


另,国内很多无良简历站,口口声声保护用户隐私,但是遇到agent是googlebot或者其他的bot的时候机会把信息全盘托出,以期提高在搜索引擎中的排名,这些无良站点没有人骂,但是天天有人骂Google出卖的他们的简历


试问,Google怎么知道一个信息是隐私还是公开的?凡是能被Google搜到的都是被某些人公开的,那么,你的信息被Google搜到了,你说你是找Google呢?还是找公开的那个人呢?


这个逻辑很复杂么?


Google只是一个信息索引者(3),它不发布任何信息,在Google里面找到的任何信息都来自某个公开的Web站点。任何不想被Google索引的站点都可以利用国际标准Robot.txt文件来屏蔽Google。而Google本身没有能力分清什么信息是隐私,他只能认为任何公开发布在Web站点上面的东西都不是隐私。(4)你要是反对前面的说法,那么,世界上所有的搜索引擎都不要玩了,关门吧。

========无聊的分割线
========
注:

  1. 如果不是故意误读,那么国外的某些记者智商水平就值得怀疑
  2. 这个区别我认为很大,因为很多人批评Google由于极高的市场占有率,所以不能随便封杀网站。但是这里Google没有封杀CNET网站的搜索,而是拒绝采访而已。
  3. 这里说的是Google搜索,至少目前是这样的,它只是索引信息。
  4. 如果你非要说已经公开发布在Web站点上面的东西是隐私的话,那么就等于告诉我不穿衣服大家也看不出来一样,我没有办法相信你的话。

UPDATE

有人解释了什么叫做Cloaking,也就是我文章说的无良简历站的做法,对这个细节关心的朋友可以去看看。如何把网站开放给Googlebot – 外加正确的做法提示


31条评论

  1. 不知道用msn search去搜索一下。。。能不能找到那位ms员工的隐私。如果我找份报纸给发表出来,不知道他会怎么做。

  2. 他也可以声明封杀你(不接受你的采访)……

    哈哈

  3. 放在网上的东西不一定是完全公开的,可能是公开给某些特定用户看的,比如一些隐藏但是没有加密码的URL,但是因为GOOGLE的机器人异常强大,并不按照普通用户的访问规则去访问这些信息,造成了这些信息的泄漏,确实是侵犯了隐私。另外,网站也没有义务写Robot.txt,就好像我有一个东西放在人人都可以拿的地方,难道我一定要贴个纸条写“请勿拿走”,否则过路人都可以随意拿走吗?

  4. GOOGLE的机器人异常强大

    这是笑话,机器人和浏览器没有区别,机器人能看到的浏览器就可以看到,而且机器人不能解释浏览器能看到的js(至少目前的googlebot是这样的。)

    并不按照普通用户的访问规则去访问这些信息

    就更不存在了,如果懂点技术就知道了。实际上你看到某个简历可以搜到,但是一点说需要登陆的那个,那不是说google有什么技术能看到,那时我前面已经写的很清楚的,那时网站作者故意泄露给搜索引擎的。当然国内某些简历站点多么无良,不是一般人能想到的。但是这些事情没有必要,也不应该栽赃给Google。

  5. 另外,所谓的用颜色把URL隐藏,号称那是隐藏的,那是不重技术的人干的,用浏览器照样可以看到

    网站设计者不懂安全或者故意泄露用户信息跟Google无关

  6. 我认为网站有义务写Robot.txt.就像你在广场上放A片和在家里放A片性质不同。你有义务至少建个帐篷把你的电视罩起来,并声明18岁以下不宜观看。不然过路人都可以看

  7. tinyfool抱歉,因网速原因重复发表,给你带来了麻烦

  8. 没事儿,我删掉重复的就好了

  9. Web正在成为一个巨大的数据仓库,而且来者不拒,永远都在扩充着它的容量。Web本身并不分辨什么是垃圾,什么是精品,它也不会去分辨什么是正常信息,什么是个人隐私。搜索引擎的工作,就是把这些不断膨胀的信息进行索引、排序。类似联想让一篇文章从Web上完全消失这种事,越来越不可能再次发生了。

  10. tiny真无聊,做google的卫道士和做google的反对者,有何不同呢。一切反对皆有目标,树大招风罢了

  11. 声音最大的往往是不懂的人,

    结果是“错误的真理”传播最快

  12. google 机器人的强大我是见识过的,比如你的根目录有一个文件夹叫html,里面有一个文件叫test.htm,你的整个网站没有任何一个链接链到这个文件,但是google的机器人却访问了这个文件一次,虽然它没有收录。

    这是不是说google的机器人在抓一个别人的隐私呢?

    另外,FLASHGET的站点探测器也能做到这个功能。

  13. to ddr,那你说他是怎么知道你有那个文件的呢?未卜先知?

    其实答案很简单,你没有关掉目录浏览。web server会给出一个默认页面,上面连接有这些文件。

    不要人云亦云,出了问题要思考,不要把很多事情归于灵异。计算机科学的有意思之处就在于凡事都能求证,凡事都能思考出结果。你偏想也不想,就怪罪别人,比那个ms员工还可笑。

  14. ddr,有误解的人我见过,误解成你这样的人,还真没见过

    每个人都不免有认识的偏差,但是没有经过严密的论证就四处宣扬,这就是谣言产生的一个很重要的原因,正如前面

    “有时候 发表于2005-11-16 12:12 PM IP: 61.49.109.*

    声音最大的往往是不懂的人,

    结果是“错误的真理”传播最快”

    说的那样

  15. to virushuo:

    我用自己的机器架设了网站,XP+IIS5.0,在IIS的“主目录”前“目录浏览”的对号取消。

    然后用FLASHGET的站点资源探测器,输入“我的网址/index.asp",它就能找到我的全部文件和目录,你可以试试。

    FLASHGET有的功能,我想GOOGLE也有实力做到吧。

    我不会傻到去开目录浏览的,但是IIS确实可以在关闭目录浏览的情况下被探测。

  16. BS 楼上冒我的名,还玷污我名声的家伙

  17. 寒死

    真把FlashGet当作super man了,哈哈

    你来用Flashget抓一下我的站点http://www.tinydust.net

    你看看你能不能找到 /jsjy/sxl/ 目录

    它绝对存在

    不信你浏览 http://www.tinydust.net/jsjy/sxl/sxl.htm

    FlashGet的那个站点资源探测器也不过是个页面分析器而已,页面不给链接的东西,打死它也找不到(除非开了目录浏览)

  18. 再说了,就算不能被探测,我犯了技术错误,我也只是因为不知道误解了,然后在你的BLOG上发表了评论而已,我事先也不知道你的BLOG有这么大的影响力,就说我是故意"四处宣扬,这就是谣言产生的一个很重要的原因"会不会严重了点?

    如果错了,你删了不就完了,我知道错了也会纠正我的认识的。

  19. 确实抓不到,看来是我理解的问题。你把错误的言论删除吧,省得变成谣言。今天又学了一点东西,谢谢!

  20. 讨论的过程可以帮助别人了解来龙去脉

    删除就不必了

    你能学会写东西,我想我这文章也没有白写

  21. 对了,还有一个问题要问一下,要是我根目录不开目录浏览,某个子目录开了,然后有个链接链到子目录的一个文件,能否探测这个子目录的其它文件?

  22. 补丁:

    你能学会些东西,我想我这文章也没有白写

  23. 还有,如果我开了某个目录的目录浏览,但是没有明确的提供这个浏览的页面,别人去探测了这个页面,是不是算侵犯隐私呢?好像又回到robot。txt的问题上了,算了,还是关了目录浏览省心。

  24. to ddr:

    从一般的流程上面看,应该不会被搜索到。但是技术上确实是不安全的。如果你不希望别人看到某个页面:

    1、最好不要放在网站上

    2、需要密码登陆

    3、至少不要开目录浏览

  25. Robot.txt 应该是危险的根源……

    我先去你站上找Robot.txt……

    Robot.txt里面的内容标准的就是“此地无银”

  26. 这篇文章被网易的那个破馆子转载了,不仅正文链接尽失,而且指向这里的链接都没有。

    http://tech.163.com/05/1116/09/22M0V9VF00091KHS.html

    也许是时候制止网易漠视版权的做法了。

  27. 果然,那里以前还是要给原文链接的,正文链接倒是一直没有,不知道是什么思路,寒死

    我一会儿发信问问他们的人,怎么搞的

  28. 看了“一位据说是微软员工的Blog上面在谈今年7月份Google封杀CNET一年的事情”,不明白好长时间的东西为什么还有人拿出来写,那么多新技术新动态,不过那位虽然据说是微软员工,但因为他一个人的意见就说微软如何如何,也不大妥当。

  29. 我可没有批评微软

发表评论

评论也有版权!