2004年04月08日

探秘Google总部:走在互联网的灵魂最深处



  加利福尼亚,山景路。在一个办公室的走廊里,人类的“问题”在电脑屏幕上不分昼夜地闪过…


  GOOGLE的员工曾经很吃惊地看着这些“问题”在电脑屏幕上飞快地闪现,又迅疾地消失--每秒钟两个,一天共173,000个。但是现在,他们再也不愿驻足观望了。屏幕上的这些问题是从散布在全球六个大型服务器中心中随机抽取的,每个被抽取的问题分别代表了1500个问题,这样下来,每天共有约2.6亿个网页搜索。所以,GOOGLE人已经无暇对这些数字感兴趣了。



  GOOGLE的总部更象一个大学实验室与“兄弟会”会所的混合体,这个大型的显示器就位于总部二层的一个高台上。GOOGLE的程序员穿着短裤和汗衫,在走廊里来回溜达,他们甚至经常还推着自行车或者牵者条狗。走廊的尽头是一个球状的红色门庭。在大显示器对面的门上,贴着GOOGLE一位程序员写的一片博士论文,该论文不久前刚刚在加州伯克利大学获得通过。


  这个大型显示器已经安装两年了,在它的四周摆满了各式各样的小玩意。有骑着炮弹的袋狸、飞机上的索环、蒂尔波特M&M自动售货机、戴着假发的日本小鸡、LINUX绒毛企鹅、万圣节的蜘蛛,还有一个从音乐盒拆下来的锯齿状的机械装置,一摇手柄,就会演奏“随风而逝”的曲子…


  体格庞大的电脑屏幕被分成上下两个部分。下半部显示用户通过GOOGLE查询的问题,一次只出现10个问题,不停地向上滚动,5秒种后就消失了。所显示的每个“查询问题”的前面都有用户所在的地址,经常精确到城市,但是有时仅精确到国家和门户网站(如AOL),或者当系统查不到时,只显示一个问号。为了维护信息的纯洁性,系统程序会把一些淫秽的问题过滤掉。无论是出于无知、信仰或者信任,在使用GOOGLE搜索功能时,全世界42%的搜索引擎用户(也即5200万人)都会打开心扉,展示自己内心最深处的、最容易受伤的心灵与渴望。


  上半部是一幅能显示黑夜与白天的世界地图。地图上遍布各大洲的是一个个闪烁着的各种颜色的亮点,每一个亮点都代表一种不同的语言和几千个要查询的问题。亮点在欧洲、日本、以色列、韩国和大部分北美地区比较密集,几乎永远都闪烁着银河一样多的亮点。在非洲、中东和南美洲,亮点就少得可怜,你甚至可以找出几个具体的位置–巴西利亚、加拉加斯、约翰内斯堡、内罗毕,还有佛得角群岛的机场。


  很显然,这不仅仅是GOOGLE用户的分布图,还是现代技术的分布图,甚至是在新世纪经济繁荣的格局。


  当你第一次研究用户所输入的这些要求时,它们可能显得无序、不可解释,是满布技术、扭曲和琐碎的大杂烩。但是几个小时之后,在你的眼球被这些守夜者的亮点锁定时,图案出现了。甚至在网络世界里,也会有早晨、下午和晚上。


  现在加利福尼亚的山景路是凌晨时分。在随后几天中,我神奇般地在三个小时中看到二十四个小时的景象。在地图上,亚马逊平原已经是夕阳西下;在美国东海岸却是上午艳阳高照,来自那里的GOOGLE查询要求是充满咖啡因般浓厚的商业气息。有无休止的关于软件升级、网络服务器、金融工具等方面的检索要求。


  在显示器的后面的墙上,有一块凹进去的部分,就象汽车的挡风玻璃。在那坐着格雷格·雷–两年前创造GOOGLE程序的三个工程师之一。现在,作为GOOGLE日志的分析师,他把一天大部分的时间都放在研究这无止境的“滚动”里。穿着运动短裤和汗衫,戴一副金丝眼镜,二十多岁的雷显得个子很高,在一所大学实验室度过一夜之后,看起来精神仍不错,正准备开始新的测试。他现在已经观察了几百万个来回滚动的查询要求。


  随着时间的推移,西边的问题开始多起来。三点钟过后,学生们开始上网了。查询的问题开始是:期中考试、研究论文和数不清的、却又拼写错误的有关小甜甜布兰妮的查询要求。


  同时,地球的另一半被黑暗所笼罩,只有一些人的狂热的梦、对健康的恐惧和互相揭丑。孤独的心灵们,通过键盘把问题发到网络空间,它们企求在遥远的互联网里答案悄然出现–如果得不到想要的东西,至少能够获得些援助…(《连线》杂志)

2004年04月07日

google 用户最常遇到的一些问题。

一般问题


1. 为何 google 会在未选定语言的情况下出现其它语言版本?


google 运用网站的标准语言首选项机制(即多语言超文本发送的标准),自动确定其显示语言。浏览器的多语言功能使您可自行设定语言喜好。


如果使用 IE5,请您选定“工具”菜单中的“Internet 选项”,单击“语言”按钮来选择您要的语言。


如果使用的是 Netscape Navigator 4.7 版,请选定“Edit”菜单中的“Preferences”,打开“Navigator”里的“Language”选项来更改指定的语言。


请注意:更改浏览器的指定语言,可能会影响对其它多语言网页的浏览。


2. 如何返回 google 英文主页?


在任何非英文版主页单击“Google in English”均可进入标准的 google 英文主页。


如果想更改 google 的界面语言,却又不愿更改浏览器的选定语言,则可以手工设置 google 的首选语言。但此举要求您使用的浏览器可以接收 cookies,而更改浏览器的选定语言则没有此类要求。


3. google 计划提供多少种语言支持?


google 计划不断增加支持的语言。要了解最新的支持语言列表,请访问“使用偏好”网页。


4. 如何向 google 就翻译或拼写问题提出改进建议?


google 的目标是最准确地翻译我们的国际网页。但是,由于翻译本身的主观性,难免会有一些用词不当的地方。如果您觉得有任何不妥之处,请就该词语及您的建议发送给 intl@google.com。Google下次更新用户界面时会考虑您的建议。


搜索问题


1. 如何在查询结果中查找所需资料?


由于 google 只将那些包含所有查询词的网页作为搜索结果列出,因此,只需增加查询字词便可缩小搜索范围。


2. 如何在开始新的查询时删除原有的搜索资料?


保留查询历史记录是 Internet Explorer 5.0 的一项功能,与 google 无关。要禁用该功能,可在“工具”菜单下单击“Internet 选项”,再选择“内容”选项卡。在个人信息区域选择“自动完成”。单击“清除表单”按钮。取消选中同一窗口中的“表单”复选框,也可以使就查询以后不再出现。此外,还可以使用向下箭头选中旧查询使之高亮显示,然后按删除键,逐个删除历史记录中不需要的旧查询项。


3. 查询结果如何排列?


google 查询结果的排序由多个因素共同决定,并特别取决于网页级别。

针对网主的问题

1. 是否需要向 google 提交更新过的和/或失效链接和网页?


google 会定期更新其全部资料,因此不需要提交更新过的或失效链接。每次漫游时 google 应该能查到这些链接。


2. 如何提交多个网页?


请访问登录/更新网站网页,输入网址。登录网址时,只须提交最上层的网页,其它各页则不必提交。网页漫游器 Googlebot 能自行找到这些网页。


3. 我的网页为何没有列入 google 目录?


可能是由于贵网站没有与其它网站链接而被忽略。如果没有网页链接到贵网站,Google 便无法确定其网页级别(PageRank,Google 用来衡量一个网页的重要性的专门标准)。一旦有链接,Google 就会将其列入目录。Google 会分析网页之间的链接方法,充份发挥 Internet 开阔无边的特性,尽量得出最相关的搜索结果。


4. 提出网站登录申请后,多久才能列入 google 目录?


一般需要 1-4 周,具体取决于提交及漫游时间。


5. 为何有些网页没有标题?


不同于其它搜索引擎,在 google,未被漫游过的网页也可能成为其搜索结果。所以对于这些未被处理的网页,就只见其网址,而不见标题。


6. 如何要求 google 不要保存我的网页快照?


删除网页记录”对此问题做了最好的答复。


7. 如何要求 google 不要漫游我的网站?


详情请参见 http://www.robotstxt.org/wc/norobots.html。在服务器上设置 robots.txt 文件便可阻止 Googlebot 或其它网页漫游器进入。Google 的网页漫游器有一个用户代理“Googlebot”。


另一种方法是在 HTML 网页上加 META 标签,这种方法在针对单个网页时更为方便。有关说明,请访问网页(英文)http://www.robotstxt.org/wc/exclusion.html#meta。您也可以参阅 HTML 标准中有关这些标签的内容。请注意,这两种方法都不能立即生效。而要等到 google 下一次漫游时才能起作用。


技术问题


1. Googlebot 为何需要我没有的 robots.txt 文件?

robots.txt 为标准文件,可以指令 Googlebot 不存取贵网站的资料。

2. Googlebot 为何从我的服务器下载错误的链接资料?

网页链接瞬息万变。每当有错误链接指向贵站点,或链接资料没有及时更新,Googlebot便有可能被误导而试图从贵网站下载错误的链接。以至有时您访问到的可能并非网站的服务器。

3. Googlebot 为何能找到我的“秘密”网站?

任何网站几乎都不可能不与其它网站链接。只要有人随着贵网页中的链接进入别的网站,别的网站便可得知您的网址,并可能将其列入引用记录之中。因此,只要有一个链接,Googlebot 和其它网页漫游器就能找到您的“秘密”网站。

4. 我的 robots.txt 文件为何不能阻止 Googlebot?

为了节约网络传输费用,Googlebot 每天只下载一次 robots.txt 文件,或只在提取了该网站上的多个网页时才下载 robots.txt 文件。因此,请您少安毋躁,Googlebot 需要一些时间来了解 robots.txt 文件可能发生的变化。另外,Googlebot 同时分布在几台机器上运行,而每台机器上都有其自己的纪录;这也会延缓 Googlebot 的处理时间。如果上述都不是问题的症结所在,则需要按照以下网页上的标准核对一下该文件的语法是否正确,网址为:http://www.robotstxt.org/wc/norobots.html。若仍有问题请与 google 联系。

5. 如何在 Googlebot 登录网站?

google 经常在网上漫游,一旦搜寻到新资料,就会将它们添加到自己的网站目录中;所以,您根本不必动手,即可坐享其成。当然,如果您愿意,Google 也欢迎您通过我们的登录/更新网站表单提供贵网站的信息。

6. 如何从 google 删除网站?

google 会定期对其整个目录进行自动更新。在网上漫游时,Google 会自动查找新的网页,删除失效的链接,并更新旧的链接。对于已经过时的链接,Google 极有可能在下次漫游时将其删除。有关如何从 google 删除网页或网页快照的详细信息,请单击此处

7. 为何 google.com 的几台机器都采用 Googlebot 进入我的网站?


为了在网站规模扩大后能够提高性能和升级,将 Googlebot 设计分布在多台机器上。另外,为了减少带宽的占用,Google 会同时使用多个漫游器,而且这些漫游器在网络中那些接近当前搜索站点的机器上运行。

Google 主页 


初学者必读


基本搜索

google 查询简洁方便,仅需输入查询内容并敲一下回车键 (Enter),或单击“Google 搜索”按钮即可得到相关资料。


google 查询严谨细致,能帮助您找到最重要、最相关的内容。例如,当 google 对网页进行分析时,它也会考虑与该网页链接的其它网页上的相关内容。Google 还会先列出那些搜索关键词相距较近的网页。

自动使用“and”进行查询

google 只会返回那些符合您的全部查询条件的网页。不需要在关键词之间加上“and”或“+”。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行了。

忽略词

google 会忽略最常用的词和字符,这些词和字符称为忽略词。Google 自动忽略“http”“.com”和“的”等字符以及数字和单字,这类字词不仅无助于缩小查询范围,而且会大大降低搜索速度。


使用英文双引号可将这些忽略词强加于搜索项,例如:输入“柳堡的故事”时,加上英文双引号会使“的”强加于搜索项中。


根据上下文确定要查看的网页

每个 google 搜索结果都包含从该网页中抽出的一段摘要,这些摘要提供了搜索关键词在网页中的上下文。

简繁转换

Google运用智能型汉字简繁自动转换系统,为您找到更多相关信息。


这个系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。例如简体的“计算机”会对应于繁体的“电脑”。当您搜索所有中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体网页。并将搜索结果的标题和摘要转换成和搜索项的同一文本,便您阅读。

词干法

为提供最准确的资料,Google 不使用“词干法”,也不支持“通配符”(*) 搜索。也就是说,Google 只搜索与输入的关键词完全一样的字词。例如:搜索“googl”或“googl*”,不会得到类似“googler”或“googlin”的结果。不信您可以试试“airline”和“airlines”这两个词。

英文字母大小写是否有影响?


google 搜索区分英文字母大小写。所有的字母均当做小写处理。例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都一样。



google 查询结果的组成部份

每个字母都链接到其注解。


A. 常用链接
点击您想使用的Google 服务进行以下搜索: 网页搜索、图片搜索或网上论坛搜索。
B. google 搜索按钮
单击此按钮可以提交另一个搜索请求。也可以通过敲击 Enter 键来提交查询。
C. 高级搜索
链接到一个网页,如有必要,从这个网页搜索可以控制搜索的范围。
D. 搜索字段
要使用 google 查询资料,只需键入几个说明性的关键词。敲击 Enter 键(回车键)或单击 google 搜索按钮,即可得到相关资料的列表。
E. 使用偏好
使用它可以设置搜索偏好,包括每个网页上默认的搜索结果数量、界面语言,以及查询语言。
F. 统计行
这里是有关查询结果及搜索时间的统计数字。
G. 网页标题
第一行是查询到的网页的标题,有时会显示为网址。这表明 google 还未将此页编入索引,或此页作者还没给它定标题。但这并不影响该网页的质量。之所以会查询到该页是因为其它网页和它之间具有链接,而 google 已为那些网页建立了索引。与这些链接相关联的文本如果同查询内容相匹配,该网页就会作为查询结果返回,即使其完整文本尚未建立索引。
H. 标题下文本
该文本是网页摘要,搜索关键词以粗体显示。单击查询结果之前,您可以通过这些网页摘要浏览一下关键词在该网页中的上下文。
I. 网址
这是该网页的网址。
J. 文本大小
这个数字是这一网页文本部份的大小。未被 google 编入索引的网站不会有此项资料。
K.

网页快照
单击“网页快照”可以查看 google 已编入索引的网页的内容。如果因为某种原因,通过站点链接无法访问当前的网页,还可以通过检索网页快照来查找您需要的信息。搜索词在网页快照中突出显示。

L.

类似网页
单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。





缩小搜索范围

搜索窍门

由于 google 只搜索包含全部查询内容的网页,所以缩小搜索范围的简单方法就是添加搜索词。添加词语后,查询结果的范围就会比原来的“过于宽泛”的查询小得多。

减除无关资料

如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”, 英文字符)。但在减号之前必须留一空格。

英文短语搜索

google 中,可以通过添加英文双引号来搜索短语。双引号中的词语(比如“like this”)在查询到的文档中将作为一个整体出现。这一方法在查找名言警句或专有名词时显得格外有用。


一些字符可以作为短语连接符。Google 将“-”、“\”、“.”、“=”和“…”等标点符号识别为短语连接符。


指定网域


有一些词后面加上冒号对 google 有特殊的含义。其中有一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在 google 搜索框中输入“site:xxxxx.com”。


例如,要在 google 站点上查找新闻,可以输入:






示例:  


 


按类别搜索


利用 google 目录 可以根据主题来缩小搜索范围。例如,在 google 目录的 Science > Astronomy 类别中搜索“Saturn”,可以找到只与 Saturn(土星)有关的信息。而不会找到“Saturn”牌汽车、“Saturn”游戏系统,或“Saturn”的其它含义。

在某个类别的网页中搜索可以快速找到所需的网页。


高级搜索


通常,只需在范围较广的查询中添加词语就可以缩小搜索范围。不过,Google 还提供了很多不同的搜索功能,利用这些功能可以做到:



  • 将搜索范围限制在某个特定的网站中
  • 排除某个特定网站的网页
  • 将搜索限制于某种指定的语言
  • 查找链接到某个指定网页的所有网页
  • 查找与指定网页相关的网页

利用 google 的高级搜索页可以很轻松地在搜索中应用这些功能。



google 的特殊功能


查找 PDF 文件

除一般网页外,Google 现在还可以查找 Adobe 的可移植文档格式 (PDF) 文件。虽然 PDF 文件不象 HTML 文件那样多,但这些文件通常会包含一些别处没有的重要资料。


如果某个搜索结果是 PDF 文件而不是网页,它的标题前面会出现以蓝色字体标明的 [PDF]。这样,用户就知道需要启动 Acrobat Reader 程序才能浏览该文件。单击 [PDF] 右侧的标题链接就可以访问这个 PDF 文档。(如果您的计算机上没有 Adobe Acrobat,Google 将带您进入一个可以免费下载该程序的网页。)


对于 PDF 文件,常见的“网页快照”将被“文本文件”所替代。文本文件是 PDF 文档中的纯文本内容,不带任何格式。


如果您只想查找一般网页,而不要 PDF 文件,只需在搜索关键词后加上 filetype:pdf 就可以了。



网页快照

google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,您将看到 google 将该网页编入索引时的页面。Google 依据这些快照来分析网页是否符合您的需求。


在显示网页快照时,其顶部有一个标题,用来提醒您这不是实际的网页。符合搜索条件的词语在网页快照上突出显示,便于您快速查找所需的相关资料。


尚未编入索引的网站没有“网页快照”,另外,如果网站的所有者要求 google 删除其快照,这些网站也没有“网页快照”。




类似网页


单击“类似网页”时,Google 侦察兵便开始寻找与这一网页相关的网页。


google 侦察兵可以“一兵多用”。如果您对某一网站的内容很感兴趣,但又嫌资料不够,Google 侦察兵会帮您找到其他有类似资料的网站;如果您在寻找产品信息,Google 侦察兵会为您提供相关信息,供您比较,使您尽可货比三家;如果您在某一领域做学问,Google 侦察兵会成为您的助手,帮您快速找到大量资料。


google 侦察兵已为成千上万的网页找到了类似网页,但网页越有个性,能找到的类似网页就越少。例如,您独树一帜的个人主页就很难有类似网页。此外,如果公司有多个网址(如 google.com 和 www.google.com),Google 侦察兵为各个网址找到的类似网页可能会有所不同。但这种情况实属罕见,Google 侦察兵将是您出色的助手。




按链接搜索

有一些词后面加上冒号对 google 具有特殊的含义。其中的一个词是“link:”。查询 link: 显示所有指向该网址的网页。例如,“link:www.google.com”将找出所有指向 google 主页的网页。不能将 link: 搜索与普通关键词搜索结合使用。







示例:  






指定网域


有一些词后面加上冒号对 google 有特殊的含义。其中的一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在 google 搜索框中输入“site:xxxxx.com”。


例如,要在 google 站点上查找新闻,可以输入:







示例:  


 





手气不错

按下“手气不错™”按钮将自动进入 google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。


例如,要查找 Stanford 大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google 将直接带您进入 Stanford 大学的官方主页 www.stanford.edu。







示例:  



 


您的手气如何?




google 工具栏


Google 工具栏


给我们一分钟,我们给您 google 工具箱,网路有史以来最好的搜索工具。
工具箱将位于 Internet Explorer 的工具列内,让您在任何网页上,随时使用 google 的强力搜索,而不需要每次造访 google 的首页。

google 工具箱完全免费,里面下列各项功能:


  • google Search: 让您在任何网页上随时使用 google 的查询。
  • Search Site: 站内查询,限定搜索范围于您所在的网站内。
  • PageRank: 网页级别,让您知道 google 对这网页的评价。
  • Page Info: 网页资讯,提供您更多有关这网页的资讯,例如和这页类似的其它网页,哪些网页有键连到此,或这网页在 google 里的存档等等。
  • Highlight: 用不同的颜色标释出您的查询字词。
  • Word Find: 在网页内寻找您查询字词的位置。

所需的操作系统



  • 微软视窗 95/98/ME/NT/2000/XP
  • 微软 Internet Explorer 第五或更新版










安装 google 工具栏




图像搜索


google 的“图像搜索”是网络上现今最好用的图像搜索工具,我们收录有超过 3.3 亿张图像供您查看。要进行图像搜索,请进入高级搜索页或 http://images.google.com/,在图像搜索框中输入要查找的资料,然后单击“搜索”按钮。在查询结果页上单击缩略图即可看到原始大小的图像,同时还可看到该图像所在的网页。


google 图像搜索服务提供的图像可能受版权保护。虽然您可以从 google 找到这些图像,但除了可以在网页上查看之外,Google 并未授权您将这些图像用于其它任何用途。因此,如果您需要使用通过 google 找到的任何图像,我们建议您先与原作者联系并徵求同意。


警告:使用本功能查询到的结果可能包含儿童不宜的内容。Google 在确定图像是否与查询相关时考虑到多个因素。由于这些确定方式不能确保万无一失,因此在查询到的图像中可能出现不适当的画面。











转到 google 图像搜索





google 网页目录



google 网页目录按主题对网页进行组织整理,这样,您就可以通过浏览分类主题来查找用于搜索的关键词。您也可以一步步单击分类链接,直至找到您所需要的资料。


如果您在 google 网页目录中找不到需要的资料,建议您改用一般网上查询。











转到 google 网页目录





无线搜寻



google 为移动电话特别设计的无线搜寻
引擎,现新增加中文的服务。 不论何时何地,Google 帮助您在万维网中快速搜索资料。



今天就上网:
http://www.google.com/wml?hl=zh-CN (简体中文) 或
http://www.google.com/wml?hl=zh-TW (繁体中文)

o ooO