2006年04月13日

今天为了把一些含有重要信息的网页从搜索引擎中清除掉,并避免未被收录含有隐私内容的个别网页被搜索引擎机器人爬到。特意去了趟Google的页面取经。

Google
 
 Remove your
URL

http://services.google.com:8882/urlconsole/controller

 

其中还发现了不少Google对页面优化的意见。
http://www.google.com/webmasters/guidelines.html
http://www.google.com/webmasters/facts.html

Google 向网站管理员提供的信息

网站管理员指南

遵循这些指南将有助于 Google
查找、索引并对您的网站进行排名。即使您选择不采纳这些建议,我们也强烈建议您对“质量指南”多加留意,因为其中简要说明了一些可能造成网站从 Google
索引中彻底删除的违禁行为。网站删除之后,Google.com 或 Google 所有合作伙伴网站的搜索结果中都不会再显示该网站。

设计与内容指南:

  • 网站应具有清晰的层次结构和文本链接。每个网页应至少可以通过一个静态文本链接打开。
  • 为用户提供一个网站地图,列出指向网站重要位置的链接。如果网站地图上的链接超过或大约为 100 个,最好将网站地图拆分为多个网页。
  • 网站应信息丰富且具有实用性,网页文字应清晰、准确地表述要传达的内容。
  • 要考虑到用户会使用哪些字词来查找您的网页,并设法将这些文字包含在您的网站上。
  • 尽量使用文字而不是图像来显示重要的名称、内容或链接。因为 Google 抓取工具无法识别图像中所含的文字。
  • 确保 TITLE 和 ALT 标记具有说明性且表达精准无误。
  • 检查链接是否错误,并确保 HTML 格式正确。
  • 如果采用动态网页(即网址中包含“?”字符),请注意并非每一个搜索引擎 Spider
    都能像抓取静态网页一样抓取动态网页。动态网页有助于缩短参数的长度并减少参数数目。
  • 将给定网页上的链接限制在合理的数量内(少于 100)。

技术指南:

  • 由于大部分搜索引擎 Spider 查看网站的方式与 Lynx 一样,所以您可使用诸如 Lynx
    的文本浏览器来检查您的网站。如果因应用了 JavaScript、cookie、会话 ID、框架、DHTML 或 Flash
    等复杂技术,而导致在文本浏览器中无法看到网站的所有网页,则搜索引擎 Spider 在抓取您的网站时可能会遇到同样问题。
  • 允许搜索漫游器抓取您的网站,同时不采用会话 ID
    或参数跟踪其在网站上的浏览路径。这些技术对跟踪单个用户的行为非常有用,但漫游器的访问模式却完全不同。如果采用这些技术,则可能会导致对网站的检索不完整,因为漫游器可能无法排除那些看上去不同,但实际却指向同一个网页的网址。
  • 确保您的 Web 服务器能支持 If-Modified-Since HTTP 标题。通过该功能,您的 Web 服务器可以告诉
    Google 自上次抓取您的网站以来,内容是否已发生变化。该功能可以节省您的带宽和开销。
  • 利用 Web 服务器上的 robots.txt 文件。
    该文件会告诉抓取工具哪些目录可以抓取。请确保该文件是网站的最新版本,以免 Googlebot 抓取工具受到意外阻碍。请访问 http://www.robotstxt.org/wc/faq.html
    了解如何在漫游器浏览您的网站时对其进行指示。
  • 如果贵公司购买了内容管理系统,请确保该系统能 输出您的内容,以便搜索引擎 spider 抓取您的网站。
  • 不要使用“&id=”作为您网址的参数,因为我们不会在索引中包含这些网页。

网站准备就绪后:

  • 将其他相关网站链接到您的网站上。
  • 将其提交给 Google,具体网址为:http://www.google.com/addurl.html
  • 提交网站地图,将其作为 Google
    Sitemaps(测试版)
    计划的一部分。Google
    Sitemaps
    利用您的网站地图了解您网站的结构并提高我们对您的网页的利用率。
  • 确保应了解您网页的所有网站都知道您的网站已处于使用状态。
  • 将您的网站提交给相关的目录,例如,Open Directory Project 和
    Yahoo!,以及其他特定行业的专业网站。

质量指南 – 基本原则:

  • 网页应面向用户,而不是面向搜索引擎。不要欺骗用户,或提交给搜索引擎一种内容,而显示给用户另一种。这种做法通常称为“隐藏”。
  • 请不要为了提高搜索引擎排名而弄虚作假。根据我们的经验,一个比较好的评定方法是:您是否可以坦然地解释对竞争对手网站所做的事情。另一个有用的测试手段即扪心自问:“这能否给我的用户带来帮助?如果不存在搜索引擎,我是否还会这样做?”
  • 请不要参与旨在提高您的网站排名或 PageRank 的链接方案。尤其要避免链接到违禁的网站或“恶邻”,因为您自身的排名可受到这些链接的负面影响。
  • 请不要使用未授权的计算机程序提交网页、检查排名等。这些程序会耗用计算机资源并违反我们的服务条款。Google 不建议使用
    WebPosition Gold™ 这类产品向 Google 发送自动或用程序编写的查询。

质量指南 – 具体建议:

  • 避免使用隐藏文本或隐藏链接。
  • 请不要采用隐藏真实内容或欺骗性重定向的手段。
  • 请不要向 Google 发送自动查询。
  • 请不要使用无关用语加载网页。
  • 请不要创建包含大量重复内容的多个网页、子域或域。
  • 请不要采用专门只针对搜索引擎制作的“桥页 (doorway page)”,也不要采用如联属计划这类原创内容很少或几乎没有原创内容的“cookie
    cutter(形状切割插件)”方式。

上述质量指南涵盖了最常见的作弊形式或操纵行为,对于此处未列出的其他误导行为(例如,通过注册知名网站的错拼形式来欺骗用户),Google
仍会采取相应措施。不要抱有侥幸心理,认为某种欺骗手段未在本页中列出,Google
就会认可该手段。作为网站管理员,与其花费大量时间寻找漏洞加以利用,不如尽其所能维护上述基本原则,以便为用户带来更好的体验,从而使网站获得更高的排名。

如果您认为有网站违背了 Google 质量指南,请告诉我们,网址为:http://www.google.com/intl/zh-cn/contact/spamreport.html。Google
希望能开发出灵活的自动解决方案来解决上述问题,因而尽量避免与违禁行为短兵相接。我们将利用收到的违禁行为报告来创建灵活的算法,从而识别并阻止未来的违禁行为。

关于 Google 的事实与谬识

谬识: 在 Google 上刊登广告会影响我在搜索结果中的排名。
事实:
在 Google 上刊登广告不会提高也不会降低网站在 Google
上的排名。

谬识: 加入链接交换或“免费链接站点”链接计划会提高我的排名。
事实:
链接计划对网站来说往往是弊大于利。许多宣传链接共享计划的网站不仅不会给您增添价值,而且还会不经您的许可分发您的电子邮件地址,导致垃圾邮件剧增。

谬识: 自动“排名检查”计划可以节省网站管理员的时间并帮助评估其在线影响。
事实:
自动“排名检查”计划违反了 Google 的服务条款。它们占用了本来可以用来响应用户请求的服务器资源。我们强烈要求您不要使用排名检查计划检查您在
Google 上的排名。

谬识: 竞争对手有办法破坏网站的排名或将其他网站从 Google 的索引中删除。
事实:
竞争对手几乎没有办法做任何损害您排名的事情,也不可能将您的网站从我们的索引中删除。您的网站管理员完全可以控制那些决定您是否列入我们索引以及网站排名的各种因素,例如,内容选择和网站设计。

谬识: 网站如果“提交次数过多”,就会从 Google 的索引中删除。
事实:
我们不要求提交网站,也不会因 “ 提交次数过多 ”
而对网站进行处罚。我们不限制您提交的次数。不过,根据我们将网站列入索引的机制,您不如把时间花在改善网站内容和链接上。

谬识: 使用 ASP(或其他一些非 HTML 文件类型) 的网站不会被列入 Google 索引中。
事实:
Google
能将大多数网页和文件类型列入索引,只有少数例外。以下是我们可以列入索引的文件扩展名示例:pdf、asp、jsp、html、shtml、xml、cfm、doc、xls、ppt、rtf、wks、lwp、wri、swf、cfm
和 php。

谬识: 使用特定类型的 Web 服务器(如 Apache 或 IIS)可以提高网站的排名。
事实:
不同 Web 服务器类型对在 Google 排名没有影响,请根据您的情况选择 Web
服务器类型。

谬识: 网页下载速度缓慢会降低网站的排名。
事实:
网页的下载速度不会影响其排名。不过,如果您的 Web
服务器或连接断开造成网页提取失败,此网页将无法被列入索引。
2006年04月12日

吴军,Google工程师 2006.02.27 08:38:00

大家可能听说过,Google革命性的发明是它名为“Page Rank”的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是Google。Yahoo!公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度的限制,当时的Yahoo!和同时代的其它搜索引擎都存在一个共同的问题:收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。那时,用户很难找到很相关信息。我记得1999年以前查找一篇论文,要换好几个搜索引擎。后来DEC公司开发了AltaVista搜索引擎,只用一台ALPHA服务器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。 AltaVista虽然让用户搜索到大量结果,但大部分结果却与查询不太相关,有时找想看的网页需要翻好几页。所以最初的AltaVista在一定程度上解决了覆盖率的问题,但不能很好地对结果进行排序。

Google的“Page Rank”(网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在Google公司的那个是真的,那么他就是真的。

在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是Page Rank的核心思想。当然Google的Page Rank算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?

Google 的两个创始人拉里•佩奇(Larry Page)和谢尔盖•布林(Sergey Brin)把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。

理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天Google的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。

我来Google后,拉里(Larry)在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey)是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图(Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。" 他和谢尔盖就这样发明了Page Rank的算法。

网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。

今天,Google搜索引擎比最初复杂、完善了许多。但是网页排名在Google所有算法中依然是至关重要的。在学术界,这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程(Information Retrieval)的教程。

http://googlechinablog.com/2006/02/page-rank-google.html

 1、网页使用框架:框架内的内容通常不在搜索引擎抓取的范围之内。

2、图片太多,文本太少。

3、提交页面转向另一网站:搜索引擎可能完全跳过这个页面。

4、提交太过频繁:一个月内提交2次以上,很多搜索引擎就受不了,认为你在提交垃圾。

5、网站关键词密度太大:不幸的是搜索引擎并没解释多高的密度是极限,一般认为100个字的描述中含有3-4个关键词为最佳。

6、文本颜色跟背景色彩一样:搜索引擎认为你在堆砌关键词欺骗它。

7、动态网页:网站的内容管理系统方便了网页更新,却给大部分搜索引擎带来麻烦,很多搜索引擎不收取动态页面,或只收取第一层页面,不会向下深入收取。这时要考虑使用WEB服务器的重写(rewrite)技术,把动态页面的url映射成和静态页面url相似的格式,搜索引擎误以为是静态页面,就会收取了。

8、网站转移服务器:搜索引擎通常只认IP地址,转换主机或域名时,IP/DNS地址发生改变,这时你要重新提交网站。

9、免费的网站空间:有的搜索引擎拒绝索引来自免费空间的网站,抱怨很多垃圾,质量差。

10、搜索引擎抓取时网站不在线:如果主机不稳定,就有可能出现这种情况。更糟糕的是,即使网站已经收录,重新抓取时发现不在线,还会将网站整个删除。

11、错误地阻挡了robots索引网站:有两种方法可能阻挡robots:主机服务器的根目录下有简单文本文件;网页中含某种META标签。

12、大量运用Flash、DHTML、cookies、JavaScript、Java制作或密码进入的网页,搜索引擎很难从这种页面中提取内容。

13、搜索引擎不能解析你的DNS:新域名注册后需要1-2天的时间才能生效,因此不要一注册了域名马上提交网站。

14、网站的链接广泛度太低:链接广泛度太低,搜索引擎难以找到你,这时要考虑把网站登录到知名分类目录,或多做几个友情链接。

15、服务器速度太慢:网络带宽小,网页下载速度太慢,或者网页太复杂,都可能导致搜索引擎还没搜到文本内容就暂停。

16、关键字问题:如果正文没有出现你的META标签中提到的关键字,搜索引擎可能以为是垃圾关键字。

一,GOOGLE简介  
Google(www.google.com)是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,GOOGLE已经获得30多项业界大奖。  
二,GOOGLE特色  
  
GOOGLE支持多达132种语言,包括简体中文和繁体中文;  
GOOGLE网站只提供搜索引擎功能,没有花里胡哨的累赘;  
GOOGLE速度极快,据说有8000多台服务器,200多条T3级宽带;  
  
GOOGLE的专利网页级别技术PageRank能够提供高命中率的搜索结果;  
GOOGLE的搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介;  
GOOGLE智能化的“手气不错”功能,提供可能最符合要求的网站;  
GOOGLE的“网页快照”功能,能从GOOGLE服务器里直接取出缓存的网页。  
  
三,基本搜索:+,-,OR  
  
GOOGLE无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。  
  
示例:搜索所有包含关键词“易筋经”和“吸星大法”的中文网页  
搜索:“易筋经 吸星大法”  
结果:已搜索有关易筋经 吸星大法的中文(简体)网页。共约有726项查询结果,这是第1-10项。搜索用时0.13秒。  
  
注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。  
  
GOOGLE用减号“-”表示逻辑“非”操作。  
  
示例:搜索所有包含“易筋经”而不含“吸星大法”的中文网页  
搜索:“易筋经 -吸星大法”  
结果:已搜索有关易筋经 -吸星大法的中文(简体)网页。共约有5,440项查询结果,这是第1-10项。搜索用时0.13秒。  
  
注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“易筋经 – 吸星大法”,搜索引擎将视为逻辑“与”操作,中间的“-”被忽略。  
  
GOOGLE用大写的“OR”表示逻辑“或”操作。但是,关键字为中文的或查询似乎还有BUG,无法得到正确的查询结果。  
  
示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。  
搜索:“britney OR beatles”  
结果:已搜索有关britney OR beatles的中文(简体)网页。共约有14,600项查询结果,这是第1-10项。搜索用时0.08秒。  
搜索:“布兰妮 OR 披头士”  
结果:找不到和您的查询-布兰妮 OR 披头士-相符的网页。  
  
注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。  
  
“+”和“-”的作用有的时候是相同的,都是为了缩小搜索结果的范围,提高查询结果命中率。  
  
例:查阅天龙八部具体是哪八部。  
  
分析:如果光用“天龙八部”做关键字,搜索结果有26,500项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。可以用两个方法减少无关结果。  
  
1,如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字,搜索结果就只有995项,可以直接找到全部八部,“天龙八部 阿修罗”。  
  
2,如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录,查询结果为1,010项,可以迅速找到需要的资料,“天龙八部 佛教 -金庸”。  
  
四,辅助搜索:通配符、大小写、句子、忽略字符以及强制搜索  
  
GOOGLE不支持通配符,如“*”、“?”等,只能做精确查询,关键字后面的“*”或者“?”会被忽略掉。  
  
GOOGLE对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。  
  
GOOGLE的关键字可以是词组(中间没有空格),也可以是句子(中间有空格),但是,用句子做关键字,必须加英文引号。  
  
示例:搜索包含“long, long ago”字串的页面。  
搜索:“"long, long ago"”  
结果:已向英特网搜索"long, long ago". 共约有28,300项查询结果,这是第1-10项。搜索用时0.28秒。  
  
注意:和搜索英文关键字串不同的是,GOOGLE对中文字串的处理并不十分完善。比如,搜索“"啊,我的太阳"”,我们希望结果中含有这个句子,事实并非如此。查询的很多结果,“啊”、“我的”、“太阳”等词语是完全分开的,但又不是“啊 我的太阳”这样的与查询。显然,GOOGLE对中文的支持尚有欠缺之处。  
  
GOOGLE对一些网路上出现频率极高的词(主要是英文单词),如“i”、“com”,以及一些符号如“*”、“.”等,作忽略处理,如果用户必须要求关键字中包含这些常用词,就要用强制语法“+”。  
  
示例:搜索包含“Who am I ?”的网页。如果用“"who am i ?"”,“Who”、“I”、“?”会被省略掉,搜索将只用“am”作关键字,所以应该用强制搜索。  
搜索:“"+who +am +i"”  
结果:已向英特网搜索"+who +am +i". 共约有362,000项查询结果,这是第1-10项。搜索用时0.30秒。  
  
注意:英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。  
  
五,高级搜索:site,link,inurl,allinurl,intitle,allintitle  
  
“site”表示搜索结果局限于某个具体网站或者网站频道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。  
  
示例:搜索中文教育科研网站(edu.cn)上所有包含“金庸”的页面。  
搜索:“金庸 site:edu.cn”  
结果:已搜索有关金庸 site:edu.cn的中文(简体)网页。共约有2,680项查询结果,这是第1-10项 。搜索用时0.31秒。  
  
示例:搜索包含“金庸”和“古龙”的中文新浪网站页面,  
搜索:“金庸 古龙 site:sina.com.cn”  
结果:已在sina.com.cn搜索有关金庸 古龙的中文(简体)网页。共约有869项查询结果,这是第1-10项。搜索用时0.34秒。  
  
注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http”以及 “www”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。  
  
“link”语法返回所有链接到某个URL地址的网页。  
  
示例:搜索所有含指向华军软件园“www.newhua.com”链接的网页。  
搜索:“link:www.newhua.com”  
结果:搜索有链接到www.newhua.com的网页。共约有695项查询结果,这是第1-10项。搜索用时0.23秒。  
  
注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被GOOGLE忽略。  
  
inurl 语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。 INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。  
  
示例:查找MIDI曲“沧海一声笑”。  
搜索:“inurl:midi 沧海一声笑”  
结果:已搜索有关inurl:midi 沧海一声笑的中文(简体)网页。共约有14项查询结果,这是第1-10项。搜索用时0.01秒。  
  
示例:查找微软网站上关于windows2000的安全课题资料。  
搜索:“inurl:security windows2000 site:microsoft.com”  
结果:已在microsoft.com内搜索有关 inurl:security windows2000的网页。共约有198项查询结果,这是第1-10项。搜索用时0.37秒。  
  
注意:“inurl:”后面不能有空格,GOOGLE也不对URL符号如“/”进行搜索。GOOGLE对“cgi-bin/phf”中的“/”当成空格处理。  
  
allinurl语法返回的网页的链接中包含所有查询关键字。这个查询的对象只集中于网页的链接字符串。  
  
示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。  
语法:“allinurl:"cgi-bin" phf +com”  
搜索:已向英特网搜索allinurl:"cgi-bin" phf +com. 共约有40项查询结果,这是第1-10项。搜索用时0.06秒。  
  
allintitle 和intitle的用法类似于上面的allinurl和inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。  
  
示例:查找日本明星藤原纪香的照片集。  
搜索:“intitle:藤原纪香 写真”  
结果:已搜索有关intitle:藤原纪香 写真的中文(简体)网页。共约有284项查询结果,这是第1-10项。搜索用时0.03秒。  
  
GOOGLE的罕用高级搜索语法:related,cache,info  
  
related用来搜索结构内容方面相似的网页。例:搜索所有与中文新浪网主页相似的页面(如网易首页,搜狐首页,中华网首页等),“related:www.sina.com.cn/index.shtml”。  
  
cache用来搜索GOOGLE服务器上某页面的缓存,这个功能同“网页快照”,通常用于查找某些已经被删除的死链接网页,相当于使用普通搜索结果页面中的“网页快照”功能。  
  
info用来显示与某链接相关的一系列搜索,提供cache、link、related和完全包含该链接的网页的功能。  
  
示例:查找和新浪首页相关的一些资讯。  
搜索:“info:www.sina.com.cn”  
结果:有关www.sina.com.cn的网页信息。  
新浪首页  
北京站 上海站 广东站. … 游戏世界, |, 影音娱乐, |, Club缘, |, 男  
人女人, |, 论坛聊天, |, 时尚潮流, |, 文教育儿, |, 车行天下, |,  
软件下载. …  
Google 提供这个网址的信息:  
查看Google网页快照里www.sina.com.cn的存档  
寻找和www.sina.com.cn类似的网页  
寻找网页有链接到www.sina.com.cn  
寻找网页包含有’www.sina.com.cn’  
  
六,其他重要功能  
  
目录服务  
  
如果不想搜索网页,而是想寻找某些专题网站,可以访问GOOGLE的分类目录“http://directory.google.com/”,中文目录是 “http://directory.google.com/Top/World/Chinese_Simplified/”。不过由于GOOGLE的目录由志愿者服务,而GOOGLE在国内名气相对比较小,因此中文目录下收录站点很少。  
  
工具条  
  
为了方便搜索者,GOOGLE提供了工具条,集成于浏览器中,用户无需打开GOOGLE主页就可以在工具条内输入关键字进行搜索。此外,工具条还提供了其他许多功能,如显示页面PageRank等。最方便的一点在于用户可以快捷的在GOOGLE主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。欲安装 GOOGLE的工具条,可以访问“http://toolbar.google.com/”,按页面提示可以自动下载并安装。  
  
新闻组(USENET)搜索  
  
新闻组中有大量的有价值信息,DEJA一直是新闻组搜索引擎中的佼佼者。2001年2月份,GOOGLE将DEJA收购并提供了所有DEJA的功能。现在,除了搜索之外,GOOGLE还支持新闻组的WEB方式浏览和张贴功能。  
  
输入“http://groups.google.com/”后,便进入GOOGLE新闻组界面。可惜现在还没有中文界面。因为新闻组中的帖子实在是多,所以我点击“Advaced Groups Search”进入高级搜索界面http://groups.google.com/advanced_group_search。新闻组高级搜索界面提供对关键字、新闻组、主题、作者、帖子序号、语言和发布日期的条件搜索。其中作者项指作者发帖所用的唯一识别号电子信箱。比如要在 alt.chinese.text内搜索著名老牌网络写手图雅的帖子,可以用下列指令“group:alt.chinese.text author:tuya@ccmail.uoregon.edu”。不过一般而言,我更推荐使用图形搜索界面,方便而且直观。  
  
搜索结果翻译  
  
曾经为那些你不懂的法文、西班牙文页面烦恼么?现在,GOOGLE支持一项搜索结果翻译功能,可以把非英文的搜索结果翻译成英文!!虽然目前只支持有限的拉丁语、法语、西班牙语、德语和葡萄牙文,但是我不得不承认,这是个伟大的改进。  
  
不过,目前只能在英文状态GOOGLE下实现这个功能。进入GOOGLE的设置页面,http: //www.google.com/preferences,有一个“BETA: Enable translation of search results into your interface language. ”的选项,把它选中,就OK了。  
  
搜索结果过滤  
  
网络上的成人内容浩如烟海,而且很多站点具有欺骗或者其他不良企图,浏览者很容易掉入其中的陷阱。为此,GOOGLE新设立了成人内容过滤功能,见 GOOGLE的设置页面,http://www.google.com/preferences,最底下有一个选项SafeSearch Filtering。不过,中文状态下的GOOGLE尚没有这个功能。  
  
PDF文档搜索  
  
我对GOOGLE 尤其欣赏的一点就是它提供对PDF文档内文的检索。目前GOOGLE检索的PDF文档大约有2500万左右。这真是太美妙了。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。  
  
示例:搜索关于电子商务(ECOMMERCE)的PDF文档。  
搜索:“inurldf ecommerce”  
结果:已向英特网搜索inurldf ecommerce. 共约有19,200项查询结果,这是第1-10项。搜索用时0.11秒。  
  
下面是某项搜索结果:  
  
[PDF] www.usi.net/pdf/outsoucing-ecommerce.pdf  
Outsourcing Electronic Commerce Business Case White Paper By: John P. Sahlin, Product  
Marketing Professonial (PMP) Implementation Manager, Web Engineering …  
一般文字档 – 类似网页  
  
可以看到,GOOGLE在PDF档前加上了[PDF]的标记,而且,GOOGLE把PDF文件转换成了文字档,点击“一般文字档”,可以粗略的查看该PDF文档的大致内容。当然,PDF原有的图片以及格式是没有了。  
  
图像文档搜索  
  
GOOGLE 提供了Internet上图像文件的搜索功能!!目前该功能尚在B测试阶段,但已经非常好用。访问地址是“images.google.com”。你可以在关键字栏位内输入描述图像内容的关键字,如“britney spears”,也可以输入描述图像质量或者其他属性的关键字,如“high quality”。  
  
GOOGLE给出的搜索结果具有一个直观的缩略图(THUMBNAIL),以及对该缩略图的简单描述,如图像文件名称,以及大小等。点击缩略图,页面分成两祯,上祯是图像之缩略图,以及页面链接,而下祯,则是该图像所处的页面。屏幕右上角有一个“Remove Frame”的按钮,可以把框架页面迅速切换到单祯的结果页面,非常方便。GOOGLE还提供了对成人内容图像的限制功能,可以让搜索者免受不必要的骚扰。  
  
不过,非常遗憾的是,图像搜索功能还不支持中文。  
  
七,搜索技巧杂谈  
  
关键词的选择在搜索中起到决定性的作用,所有搜索技巧中,关键词选择是最基本也是最有效的。  
  
例一:查找《镜花缘》一书中淑士国酒保的酸话原文。  
  
分析:如果按照一般的思路,找某部小说中的具体段落,就需要用搜索引擎先找到这本书,然后再翻到该段落。这样做当然可以,但是效率很低。如果了解目标信息的构成,用一些目标信息所特有的字词,可以非常迅速的查到所需要的资料。也就是说,高效率的搜索关键字不一定就是目标信息的主题。在上面的例子中,酒保谈到酒的浓淡与贵贱的关系时,之乎者也横飞。因此,可以用特定的词语一下子找到目标资料。  
  
搜索:“酒 贵 贱 之”,OK,找到的第一条信息就是镜花缘的这一段落:“先生听者:今以酒醋论之,酒价贱之,醋价贵之。因何贱之?为甚贵之?真所分之,在其味之。酒昧淡之,故而贱之;醋味厚之,所以贵之。…”  
  
以上的关键字选择技巧可以谓之“特定词法”。  
  
例二:“黄花闺女”一词中“黄花”是什么意思。  
  
分析:“黄花闺女”是一个约定的俗语,如果只用“黄花闺女黄花”做关键词,搜索结果将浩如烟海,没什么价值,因此必须要加更多的关键词,约束搜索结果。选择什么关键词好呢?备选的有“意思”、“含义”、“来历”、“由来”、“典故”、“出典”、“渊源”等,可以猜到的是,类似的资料,应该包含在一些民俗介绍性的文字里,所以用诸如“来历”、“由来”、“出典”等词汇的概率更高一些。  
  
搜索:“黄花闺女 黄花 由来”,查到“黄花”原来出典于《太平御览》,与南朝的寿阳公主相关。如果想获得第一手资料,那就可以用“太平御览 寿阳公主”做搜索了。  
  
以上的关键字选择技巧可以谓之“近义词法”。  
  
例三:刘德华同志的胸围是多少。  
  
分析:首先声明,这是某个MM要我做的搜索,我把它作为搜索案例而已,没其他的意思。非常直接的搜索是,“刘德华胸围”,但事实上,这么搜索出来的结果,尽是一些诸如“刘德华取笑莫文蔚胸围太小”之类的八卦新闻,无法快速得到所需要的资料。可以想到的是,需要的资料应该包含在刘德华的全面介绍性文字中,除了胸围,应该还包括他的身高,体重,生日等一系列相关信息。OK,这样就可以进一步的增加其他约束性关键词以缩小搜索范围。  
  
搜索:“刘德华 胸围身高”,没有料到的情况发生了,网上炙手可热的痞子蔡《第一次亲密接触》里居然含有这样关键字,阿泰“改编自刘德华《忘情水》的变态歪歌”、“用身高体重三围和生日来加以编号”。好办,把这部小说去掉,“刘德华 胸围 身高 -阿泰”,OK,结果出来了,华仔胸围84cm。说明一下,为什么用“阿泰”而不用“第一次亲密接触”呢?这是因为小说的名字被转载的时候可能有变动,但里面角色的名字是不会变的。  
  
以上的关键字选择技巧可以谓之“相关词法”。  
  
其他常用搜索个案  
  
例一:找人  
  
分析:一个人在网上揭示的资料通常有:姓名,网名,性别,年龄,毕业学校,工作单位,外号,住址,电话,信箱,BP,手机号码,ICQ号,OICQ号等等。所以,如果你要了解一下你多年没见过的同学,那不妨用上述信息做关键字进行查询,也许会有大的收获。  
  
例二:找软件  
  
分析一:最简单的搜索当然就是直接以软件名称以及版本号为关键字查询。但是,仅仅有软件名称和目标网站,显然还不行,因为搜索到的可能是软件的相关新闻。应该再增加一个关键字。考虑到下载页面上常有“点击此处下载”或者“download”的提示语,因此,可以增加“下载”或者“download”为关键字。  
搜索:“winzip 8.0 下载”  
结果:已搜索有关winzip 8.0 下载的中文(简体)网页。共约有6,670项查询结果,这是第1-10项。搜索用时0.22秒。  
  
分析二:很多网站设有专门的下载目录,而且就命名为“download”,因此,可以用INURL语法直接搜索这些下载目录。  
搜索:“winzip 8.0 inurlownload”  
结果:已搜索有关winzip 8.0 inurlownload的中文(简体)网页。共约有358项查询结果,这是第1-10项。搜索用时0.44秒。  
  
在互联网上随意的下载软件是不安全的,因为供下载的软件有可能带有病毒或者捆绑了木马,所以,对下载网站作一个限定,是一个稳妥的思路。可以用SITE语法达到这个目的。  
  
共享软件下载完之后,使用的时候,软件总跳出警示框,或者软件的功能受到一定限制。由于中国的网民多是穷棒子,所以应该再找一个注册码。找注册码,除了软件的名称和版本号外,还需要有诸如“serial number”、“sn”、“序列号”等关键字。现在,来搜索一下winzip8.0的注册码。  
搜索:“winzip 8.0 sn”  
结果:已向英特网搜索winzip 8.0 sn. 共约有777项查询结果,这是第1-10项。搜索用时0.30秒。  
  
例三:找图片
  
除了GOOGLE提供的专门图片搜索功能,还可以组合使用一些搜索语法,达到图片搜索之目的。  
  
分析一:专门的图片集合,提供图片的网站通常会把图片放在某个专门目录下,如“gallary”、“album”、“photo”、“image”等。这样就可以使用INURL语法迅速找到这类目录。现在,试着找找小甜甜布兰妮的照片集。  
搜索:“"britney spears" inurlhoto”  
结果:已向英特网搜索"britney spears" inurlhoto. 共约有2,720项查询结果,这是第1-10项。搜索用时0.23秒。  
  
分析二:提供图片集合的网页,在标题栏内通常会注明,这是谁谁的图片集合。于是就可以用INTITLE语法找到这类网页。  
搜索:“intitle:"britney spears" picture”  
结果:已向英特网搜索intitle:"britney spears" picture. 共约有317项查询结果,这是第1-10项。搜索用时0.40秒。  
  
分析三:明星的FANS通常会申请免费个人主页来存放他们偶像的靓照。于是用SITE语法指定某免费主页提供站点,是个迅速找到图片的好办法。  
搜索:“"britney spears" site:geocities.com”  
结果:已在geocities.com内搜索有关"britney spears"的网页。共约有5,020项查询结果,这是第1-10项。搜索用时0.47秒。  
  
例四:找MP3  
  
分析一:提供MP3的网站,通常会建立一个叫做MP3的目录,目录底下分门别类的存放各种MP3乐曲。所以,可以用INURL语法迅速找到这类目录。现在用这个办法找找老歌“say you say me”。  
搜索:“"say you say me" inurl:mp3”  
结果:已向英特网搜索inurl:mp3 "say you say me". 共约有155项查询结果,这是第1-10项。搜索用时0.17秒。  
  
分析二:也可以通过网页标题,找到这类提供MP3的网页。  
搜索:“"say you say me" intitle:mp3”  
结果:已向英特网搜索"say you say me" intitle:mp3. 共约有178项查询结果,这是第1-10项。搜索用时0.73秒。  
  
当然,如果你知道某个网站的下载速度快,而且乐曲全,就可以用SITE语法先到该网站上看看有没有目标乐曲。  
  
例五:找书  
  
分析一:对我而言,常访问的电子图书馆类网站就那么几个,比如文艺类的“www.shuku.net”。于是可以用SITE语法很简单的找到某本书(如果该网站上有的话)。比如,“旧唐书 site:shuku.net”,就可以马上找到该书。如果没有,通常别的网站上也很难找到。因此,找书的关键,是你了解一大批著名的图书馆网站。  
  
分析二:我上面介绍的第一项关键字选择技巧特定词法,对于迅速找到某书或者文章也是极其有用的,当然,这得建立在你已经读过该书,对书的内容有印象的基础上。比如如果了解堂吉诃德一书战风车的大致内容,就可以用“吉诃德 风车 桑乔”迅速找到该书。  
  
九,GOOGLE搜索FAQ  
  
Q:如何全面的了解google.com?  
A:查看网站相关页面“http://www.google.com/about.html”。  
  
Q:如何切换google.com的初始语言界面?  
A:点击搜索栏右边的“使用偏好”(Preferences),选择“界面语言”(Interface Language)中你期望的语言,点击最下面的“设定使用偏好”(Save Preferences)按钮。需要提醒的是,GOOGLE用cookie记录这个偏好,所以如果你把浏览器的cookie功能关掉,就无法进行设定。   
  
Q:如何设定每页搜索结果显示数量?  
A:同上,进入使用偏好,在该页的“查看结果”(Number of Results)选择显示结果数,数目越大,显示结果需要的时间越长,默认是10项。  
  
Q:搜索到的链接无法打开怎么办?  
A:链接无法打开的原因很多,比如网站当机,或者ISP过滤等,可以点击GOOGLE的“网页快照”查看在GOOGLE服务器上的网页缓存。  
  
Q:打开搜索结果的链接,可是该页面太大,很难找到一下子找到目的资料怎么办?  
A:直接打开“网页快照”,GOOGLE会把关键词用不同颜色标记出来,很容易找到。

Is there a way to get indexed better by the search engines?

There is no single technique, but a number of factors can help.

* Search engines index the textual content of your site, so use a meaningful <TITLE>, use meaningful headings (<H1>, <H2>, and so on), and provide meaningful ALT text for images.

使用有含义的 title (网页标题)标签;使用有意义的 h1-h7 (标题)标签;给图片加上有意义的 alt 值。有几个问题说一下:很多人喜欢把自己的站点名写在前面,网页内容标题写在后面,这样不对,应该把站点名称写在后面或者不写。图片如果只是用来排版装饰,尽量以背景的形式出现,如果非要嵌入图片,请加入替换(alt)文字,如果实在没有写成 alt="" (中间没有空格,以便通过验证)

* Many search engines ignore frames, so avoid them, and be sure to provide useful NOFRAMES content if you do use them.

尽量不要使用框架,因为搜索引擎会忽略它。

* Most search engines ignore image maps, forms, and JavaScript, so make sure that navigating your site doesn’t depend on them. Provide normal links for site navigation.

大所数搜索引擎忽略图片热点链接,表单和javascript,所以不要用这些方法来制作导航。就用最简单的链接即可。

* Avoid using META refresh, because many search engines penalize sites that use it (META refresh has been used to trick search engines).

不要使用 <meta http-equiv=refresh …> ,因为有人曾经用它来作弊,搜索引擎会惩罚这样的站点。

* The indexing programs of some search engines (including AltaVista and Infoseek) will also take into account <META NAME="keywords" CONTENT="…"> tags that appear in the <HEAD> part of your documents. However, META keywords have been used to trick search engines, so many will ignore your keywords list if you repeat a given keyword too often. At this writing, "too often" means "more than 7 times" to some popular engines, but that may change in the future as indexing programs are changed to defend against trickery.

<META NAME="keywords" CONTENT="…"> 这样的写法会被 AltaVista 和 Infoseek 这样的搜索引擎读取,但关键字不要重复太多。实际上我记得有文章说到,这些 meta 关键字之类的东西现在的搜索引擎根本不看。这就是不诚信的代价。

* If you include a <META NAME="description" CONTENT="…"> tag in the <HEAD> part of your documents, then some search engines will use the content of this tag as your site’s description when displaying search results. This won’t affect your ranking in searches, but it can help search engine users understand what your site offers when a search does find your site.

The CONTENT attribute of the META keywords and description tags may contain up to 1022 characters, but no markup other than entities.

大致同上。content只能使用实体文字,且不得超过1022个字符。

You might want to preview your site with a text-only browser like Lynx, to get an idea of how your site appears to search engines. Search Engine Watch at <URL:http ://searchenginewatch.com/> is a Web site dedicated to search engines and strategies for Web page authors.

可以用这个
http://searchenginewatch.com/
看看你的页面在搜索引擎“眼”里是个什么德行。

Finally, note that some search engines ignore sites hosted by well-known free hosting services. Other search engines index only a certain number of documents per server, so while early customers of free hosting services may be indexed, later customers may be ignored.

一些搜索引擎会忽略著名的免费主机站点。另一些只会索引某一台服务器上的一定数量的页面,所以后面注册的站点就不会被索引。