2007年04月06日

来源:http://www.a-cong.com/archives/2007/04/seo.html

想给网站加个留言板.Google gbook时搜索结果的下方有如下文字引起了a-cong的注意

相关搜索: gbook asp网站留言 gbook/write.asp gbook.asp>>签写留言 gbook.asp gbook/default.asp gbook/add.asp留言 gbook.asp铃声下载 签写我的留言gbook blog/gbook.asp gbook.asp短信联盟

点击第一个相关搜索gbook asp网站留言,任意点击搜索结果,所进入的留言本都有留言,但几乎都是带有链接的关键词留言.这种行为.国外称为SPAM(搜索排名作弊).

Google排名中有一条不变的规律PR值高的页面优先列在前面,页面要获得高的PR值需其它网站的链接,越多越好.这一条规律导致"SEO"们疯狂做案. 付钱的网站排名要靠前,就需要外部链接,当"SEO"自己养的网站做付钱网站的链接不足以撼动排名时,会寻求更多的外部链接,正真高质量的外部链接不好找,那就以数量上取胜吧.大多数的留言板都可以让留言者留下自己的网址."SEO"看中的正是这点

在Google上搜索一个词,Google会在搜索结果第一页页尾列出与该词相关且搜索次数较多的键词.从这点上可看出搜gbook进行SPAM工作的相当不少.做的人多,自然是有市场,这类活还真好赚钱,只需到处留留言就行. 可怜"SEO"是因为留言板需要填写随机码,机器人不能自动留言,至少要手动填写随机码,累不累啊.呵呵.

对付这类到处拉屎的"SEO"可有以下方法:

A.主动型.各位有留言板的站长,如果有"SEO"到你处一游,可向Google举报所留下的网址.必杀技

B.被动型.如站长是老好人或懒人,可将留言板设置成不允许使用html代码,在显示留言者网址的代码中加入 rel="nofollow"

C.无所谓型.当网站有链接到有作弊网站时,此网站受牵连.这类站长可自由把握.

以上所说的SEO是指以SPAM为生的"SEO",SEO们请勿对号入座.

2007年03月23日

来源:http://www.a-cong.com/archives/2007/03/google_dance.html 

无意中查询www.a-cong.com的PR(PageRank)值变成2.自留地重新开张不到一个月时间,就有了Google PR值(PageRank),看来Google还是挺照顾自留地的.嘿嘿… a-cong.com PR值的更新,意味着新一轮的Google Dance开始.

Google Dance 释义:Google Dance这个名词通常用于描述Google搜索引擎对其搜索结果进行更新、重组的过程。Google一般每个月对其搜索数据库进行一次更新。在Google Dance时期(三到五天内),你可以发现Google的搜索结果会有大幅度的波动。事实上,Google 的更新过程可以很容易地通过搜索结果的显著变化来识别,通过Google对搜索页面的网页快照的更新也能够看出来。在Google Dance过程中,几乎每一分钟都会有变化。 在Google的更新过程中,其搜索始终在变化,所以它的搜索结果也会有很大的变动。页面PR等级(PageRank)和返回链接的更新也是在这个时期完成的。

PageRank 释义:通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank (简称:PR或PR值)能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。 此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的 PageRank(网页排名)较高,从而显示在搜索结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。

2007年02月28日

内部因素

URL中出现关键词

网页Title中出现关键词

常规内容中出现关键词

在页面的第一段中出现关键词

在页面的最后一段中出现关键词

Heading 标签 比如h1,h2中出现关键词

站内的链接中出现关键词

导向相关内容的导出链接

导出链接中出现关键词

图片文件名中出现关键词

Alt标签中出现关键词

comment中出现关键词

合理的频率更新内容

内容对搜索引擎的展示位置

网站结构循环PR,而非散发PR

外部因素

大量的导入链接

从高PR值得网页获得导入链接

从相关内容网站获得导入链接

导入链接指向的网页有具体内容

锚文字中有关键词

锚文字周围有相关词

锚文字存在于文章或句子中

导入链接的时间长度,一般导入链接的存在时间有3-6个月

单向链接的价值高于交换链接

导入链接的页面的导出链接小于100个,流出链接越少越好

链接来自不同IP

合理的导入链接增长频率

你需要避免的事情

关键词堆积

所有的锚文字都相同

使用CSS或背景色隐藏内容,这是十恶不赦的大恶

使用JavaScript跳转

相同ip之下的网页直接进行大量交换链接

桥页和Cloaking,诱导搜索引擎的爬虫,这是十恶不赦的大恶

成人内容,违禁药品,赌博相关内容

内容重复

连向作弊的网站

站内的绝大部分网页有相同的网页title

加入到Link Farm或则Link交换类网站

尽量避免的问题

地址中存在动态变量

单一图片和Flash的网站

用Javascript制作的网站导航条或目录

用图片做网站导航而不加ALT标签

〈head〉〈/head〉之间有太多的代码

存在太多与网站主题无关的内容

导入链接中购买链接占多数

2004年10月17日

从Business.com遭封看302重定向

 

>> 网站重定向成祸端 
 
 
Business.com是网上最大的商业搜索引擎和分类目录,以专业提供商业信息而享负盛名,包括近19万网页。若以“business”为关键词在Google中进行搜索,该网站名列第一。不过在9月5日,Business.com遇到一件蹊跷之事:它的首页由PR8变成了PR0, 而且Google搜索结果中找不到首页。好在被“蒸发”的只是首页,不过庆幸的是第二天首页又回到了Google的搜索结果,但PR仍旧为0。
Business.com的问题出在它的重定向命令上。该网站让business.com跳转到www.business.com,这种重定向本该是永久性的。我们知道,301属于永久性重定向,而302则属于临时性重定向,只有当一个网站或网页在24到48小时之内临时移到其它位置的情况下才能使用该命令。但Business.com却错误地使用了“HTTP/1.1302 Object Moved”状态码。 
 
其实网站重定向极为普遍,譬如不满意原来的域名而申请了一个新域名;买下容易被人错拼的域名,防止客户因为拼错URL而找不到网站,等等。可是,很多人却会由于使用了错误的重定向状态码而遭“灭站之灾”,就象Business.com。尽管他们的重定向理由充分合理,然而若使用不当,则可能被Google误认为是利用多个域名指向同一网站,那么你的网站就会被封掉,罪名是“利用重复的内容来干扰Google搜索结果的网站排名”。Business.com就是最好的前车之鉴。只不过大多数使用错误重定向参数的网站没Business.com这么幸运,一个小小的重定向就可能使网站前功尽弃,只能从头来过:重新申请新域名,重新发布新网站,等等。记住:Google绝不会同情任何人即使无心犯下的错误。
 
>> 网站服务器响应网页浏览请求的运作流程
 
 
 
让我们先来了解一下用户/搜索引擎和网站一开始的交互流程。当用户或搜索引擎向一个网站服务器发出网页浏览请求时,该服务器将:
1.通过域名服务器(DNS)将域名转换为网站的IP地址,然后返回给客户
2.打开一个该IP套接口连接
3.记下通过该套接口的一个HTTP数据流
4.从WEB服务器接收一个响应请求的HTTP数据流。该数据流包含状态码,状态码的值由HTTP协议所决定。这里所说的“HTTP数据流”信息也叫“头信息(Header)”。头信息中包括了日期,服务器类型,通常还会有一条“200 OK”信息。如果一切良好,那么网络服务器就会将“200 OK”信息以及请求页面发送出去。如果网站在这时候已经建立了重定向,那么服务器就会在头信息中包含一个“302 Moved Temporarily”或“301 Moved Permanent”之类的响应信息。搜索引擎会根据服务器头信息中的内容作出决定。 
 
>> 网站重定向的注意事项
 
 
 
 
1.若准备将服务器上的文件移到其它地方时,须就以下信息正确地通知搜索引擎的爬行程序:
  – 目标地址:这些文件被移向何方
  – 移动属性:暂时移走还是永久性移走
2.对拥有多个域名的网站,专家建议应把那些不想在搜索引擎上推广的域名用301跳转命令来永久性重定向。
 
>> 确保网站实施了正确的301重定向
 
 
 
 
对于正确实施301重定向,有这样几个方法可供大家参考:
1.在.htaccess文件中增加301重定向指令
2.适用于使用Unix网络服务器的用户。通过此指令通知搜索引擎的spider你的站点文件不在此地址下。这是较为常用的办法。形如:Redirect 301 / http://www.yourdomain.com/
3.在服务器软件的系统管理员配置区完成301重定向
适用于使用Window网络服务器的用户
4.采用“mod_rewrite”技术。
通过该技术进行的改变将在.htaccess文件中体现出来,形如:
Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_HOST} ^yourdomain\.com
RewriteRule ^(.*)$ http://www.yourdomain.com/$1 [R=permanent,L]
5.绑定/本地DNS
如果具有对本地DNS记录进行编辑修改的权限,则只要添加一个记录就可以解决此问题。
若无此权限,则可要求网站托管服务商对DNS服务器进行相应设置。
DNS服务器的设置
若要将aaa.domain.com指向www.domain.com,则只需在DNS服务中应增加一个别名记录,可写成:aaa IN CNAME www.domain.com。
如需配置大量的虚拟域名,则可写成:* IN CNAME www.domain.com.
这样就可将所有未设置的以domain.com结尾的记录全部重定向到www.domain.com上。
6.用ASP/PHP实现301重定向:
ASP:
Response.Status=”301 Moved Permanently”
Response.AddHeader “Location”,”http://www.yoursite.com/”
Response.End
PHP:
header(“HTTP/1.1 301 Moved Permanently”);
header(“Location:http://www.yoursite.com/”);
exit();
 
>> 资深SEO专家Dan Thies的看法和建议:
 
 
 
 
对于Business.com所遭遇的问题Dan Thies深有体会,因为他也有过类似的遭遇。他的网站上有一个会员跟踪脚本,其中一个会员的站点通过302命令映射到这个跟踪脚本,而这个跟踪脚本又是通过302映射到他的主页。当在Google中用“keyword research”进行搜索,他的主页排名在前十位,然而地址显示的却是那个会员的网址。结果使他哭笑不得:访问者通过Google搜索结果进入他的网站,而他却不得不为这些访问量给那个会员支付报酬! 后来他用robots.txt文件禁止Spiders跟踪访问他的会员跟踪脚本才算解决了问题。
对于Business.com,Dan Thies认为:“目前Google在302重定向”的处理上还存在一定的问题,但并不表示Google不允许302重定向。Business.com并未遭封或遭到惩罚,它们只是返回了错误的响应。”

Dan Thies建议:如果使用了跟踪URL/脚本,又必须让访问者重定向到某一着陆页,那么一定要在robots.txt文件中禁止Spiders去访问第二个重定向。如果没有对跟踪URL/脚本进行重定向,而只是把另外一个URL上的内容给复制过来,那么应在robots.txt文件中禁止Spiders去访问跟踪URL,以防因内容重复而遭搜索引擎惩罚。
 
 
>>301重定向经验谈
 
 
 
 
一个多域名站主的经验之谈:
“我只有一个网站,主域名是www.domain.com,此外还有诸如domain1.com、domain2.com、domain3.com等共计十几个域名。所有这些次级域名都映射到www.domain.com,而且所有域名对应的是同一个IP地址。由于事实上我只有一个站点,一个站点又只能对应一个.htaccess文件,显然不可能直接修改.htaccess文件来实现重定向。我采用了如下步骤:
 A.把domain1.com从domain.com上独立出来,让它成为服务器上的一个普通独立网站。
 B.为domain1.com创建一个.htaccess文本文件,并在文件中设置重定向代码为:
 Redirect permanent / http://www.domain.com/
 再将修改后的.htaccess文件上传给domain1.com所在服务器。
 这一步也可以在域名控制面板中完成。
 C.进入域名控制面板,将所有原来绑定到domain.com上的域名从domain.com上释放,然后重新绑定到doamin1.com。这样一来,这些被绑定的域名使用的都是domain1.com的.htaccess文件,因而也就意味着它们都被永久性重定向到domain.com上了。
好了,大功告成! 就这么容易!

2004年09月23日

Google PageRank是否已成昔日骄子(I)

  编译:Karen
Google的PageRank,一直是SEO界较为敏感,也是极为关注的一个话题。PageRank曾经是主宰Google排名算法的一个主要因素,以至于看一个网站的排名,往往会先去分析它的PageRank是多少。不过现在人们正逐渐意识到,PageRank已难再唱主角。尤其最近有人发现在Google工具栏网站下,竟然没有我们熟悉的PageRank绿色显示条这一项(如下图示)。这一发现亦引发了不少有趣的猜测:有人说可能是Google不再考虑PageRank作为排名因素的先兆,也有人认为这表明了Google对PageRank没有原来那么重视了。 当然结果是虚惊一场,安装完新版本的工具栏后你会发现PageRank还是安装默认项,安装后会自动出现在工具栏中,但Google为什么要在图示里面把它拿掉,是有心还是无意,那就不得而知了。
 

Google旧版工具栏

Google新版工具栏
 
PageRank的命运究竟如何,它在Google排名中到底扮演什么样的角色,是否确实风光不再? 我们就这些问题摘选了两篇国外资深SEO专家对PageRank现状的一些看法和建议,以飨读者。
 
风光不再,PageRank将淡出Google排名算法
艾伦。华尔(Aaron Wall)
Search-Marketing.info(一家专业提供搜索引擎市场营销服务的公司)的技术工程师,也是SEOBook.com的站主。该站点为搜索引擎方面的博客站点,主要涉及SEO技巧及相关书籍销售,并提供搜索引擎新闻。
一直以来,PageRank就是SEO工作努力的主要方向之一。艾伦.华尔认为:PageRank如此受推崇的原因有二:
  1) 一个PR0的新网站在得到若干外部链接后的一两个月里,就可以观察到PR或多或少都会提高。PR的改变一般是网站优化后我们首先能够看到的一个效果。所以,人们往往容易把网站排名的提升和网站PR的提高理所当然地联系在一起,因而把全部注意力都集中在了网站PR的改变上。
  2) 许多链接经纪商和网站向别的网站出售文本链接时,都会将PR值作为定价因素之一。

他指出:其实相对于获得理想的网站排名,往往还是获得一个适中的PR值更为容易一些。大家可以直接观察到的SEO优化效果不仅仅体现在PR的变化上,网站外部链接的改变和网站的实际排名变化也是可以观察到的优化效果之一。

同时他还认为:PageRank并不象有些人深信的那样,与网站的相关性有着最为直接的联系。毋庸置疑,PageRank曾一度在Google排名体系中饰演着关键的角色,但时过境迁,PageRank已不再是Google骄子,它正慢慢淡出Google的排名系统。而且他断言,随着时间的推移,PageRank在Google排名中所占据的比重必定还会愈来愈小。

艾伦.华尔道:相关性是搜索技术的唯一目标。搜索引擎的任务是把与查询主题最为相关的网站呈现在搜索结果的最前面,所以即使一个网站经过了最优化,拥有最多的外部链接,但若缺乏对查询主题的相关性,一样得不到理想的排名。此外,就在人们不断探索搜索引擎的搜索算法的同时,搜索引擎也在不懈地改进其算法。而且人们对PageRank的无比重视只会让Google窃喜,因为这样的话,人们就不会注意到PageRank其实已经不那么重要。

艾伦.华尔认为PageRank不再重要的原因就在于它在概念上的易理解性造成了它容易被控制的致命缺陷。搜索引擎的价值和魅力就在于我们无法了解它幕后的排名技术。相反,如果我们了解了一个搜索引擎是如何对搜索结果进行排名的,那么我们就可以完全操控它,这样的话这个搜索引擎就没有什么意义了。拿Google来说,它不断推出新的阻滤工具,聚类及语义分类等技术,并随时将新开发的搜索技术糅合进其搜索排名算法中,从而使网管们望尘莫及,成功地保持了它自身的价值和魅力。

谈及PageRank究竟有多容易遭到操控,艾伦.华尔感叹道:太容易不过了! 他举了个例子:倘若我有一个PR6的网站,如果我创建了一个新网站,那么只要在PR6的网站上的所有页面上放上这个新网站的链接,过不了多久,这个新网站就可以自动获得至少为5的PR。而且,由于排名靠前的绝大多数行业站点,其PR普遍为5或者6,因而倘若PageRank是决定Google排名的关键因素,那么对新行业的恶意控制简直易如反掌。显然,这一点可是Google最不愿意看到的。

艾伦.华尔说:网络上不乏PR不低于4的免费“链接大餐”。他透露道:他一个朋友的网站上所有的外部链接均来自论坛,就是这些免费的链接让他朋友的网站得到了PR6。此外,随着PageRank热,叫卖高PR链接的买家也比比皆是。大规模的象Internet.com,价位在7,500美元/月,客户的文字链接广告将出现在Internet.com网络所属各站点中。这一款比较适合那些资金雄厚的大中型公司。一些网络分类目录提供的有偿收录价格一般较低,而且保证客户网站收录在至少PR5的页面中。所以资金比较单薄的小公司每个月只需花上最多几百美元也能遂愿。这也正是为什么在未来半年到一年时间内,网络目录的数量将继续增长的原因。当然,这就是题外话了。

不难想象,通过链接来控制PR非常之容易,Google也不会迟钝到不清楚这一点,所以在完善其算法的同时,Google肯定会继续寻求多种途径来不断削弱PageRank在排名中的份量。因而单凭PR来改善网站排名的做法已然行不通了。

此外,对搜索引擎而言,总是希望SEO(搜索引擎优化)越来越复杂,越来越需要耗费时间和精力,这样一来,客户就会把注意力转向其它两种网站推广选择方案:一种是购买搜索引擎所提供的搜索广告服务;另一种则是要求客户创建一个高质高量,从而能够自然吸引足够的外部链接的这样一个网站,以此获得满意的网站排名。

艾伦.华尔指出:就目前来说,要想在Google中取得理想排名的敲门砖是外部链接而不是PageRank。他建议大家把精力放在外部链接的发展上,不要去管PageRank是不是提高了,并为大家提供了发展外部链接的五条基本标准:
  1) 须有相当数量的外部链接
  2) 外部链接应与网站内容密切相关
  3) 这些链接应来自不同的C类IP地址
  4) 在这些链接的链接文字中应富含关键词
  5) 链接文字在内容上应灵活多变

艾伦.华尔提醒大家:对于一个网站上拥有内容完全相同而且数量客观的外部链接,Google可能会把这些链接当作自动生成的链接SPAM对待,所以建议大家最好灵活采用多种形式的链接文字免受无妄之灾。

编者注:最新动态:Google对网站外部链接的关注程度有增无减

WebPro论坛上有人指出:Google对网站的外部链接更为关注,而且48个小时之内就可以从Google的搜索结果中看出网站的外部链接上的变化(增减)对排名的影响。

该用户说:他的网站曾经有一个PR8的网站链接,可就在几天前该网站去掉了他的链接,并换上了另一家网站,他吃惊的发现:他网站的Google排名在当天就掉下来两位,而得到这个PR8的链接的“幸运儿”网站的排名则在当天内上升了6位。根据这些观察,很可能表明:Google极为关注网站的外部链接,并会根据链接指向的变化在当天对搜索结果进行相应调整。PR较高的网站,其外部链接上的变化在48小时内就可以在Google的搜索结果中体现出来。不过对PR较低或更新较为缓慢的网站,由于Google较少光顾,因而可能要过一两周才能在Google的搜索结果中看到链接变化造成的排名变化。但是至少可以肯定一点,我们无须再象以往那样等上一个月或更漫长的时间。

<待续>
2004年08月27日

Google双重列表(Double-Listing)探析

  编译:Karen

大家在Google中进行搜索时可能会注意到这样一个有趣的现象:有的网站在搜索结果上可以被连续列出两次(如下图所示):

 WHAT
对上述例子,当我们将Google默认的每页显示10项搜索结果改为每页只显示4项后,就可以发现这两个来自同一地址的网站现在一个排在第一位,另一个则排在了第二页的第一位上(第四位)。

我们都知道,对于任一关键词查询,无论一个网站有多少网页与该查询密切相关,Google也只允许搜索结果中最多只能出现其中的两个页面列表。那么,是否当这两个网页的排名较为接近时或出现在同一搜索结果页上时Google将对数据有什么再处理?

为了验证我们的观察,我们挑选了下面这两个来自同一网站且排名分别为3和17的两个网页。当使用Google默认的每页显示10项搜索结果时它们分别位于搜索结果的第一和第二页上,但在我们将选项改成每页显示20项搜索结果后,这两个网页出现在了搜索结果第一页的第3位和4位上(如下图所示):

由此不难得知,这种情形不太经常出现的原因只是由于虽然可能Google列出了某网站上的两个网页,但往往排名相去甚远,比如一个在第9位上,而另外一个则在156位上,所以无法出现在同一个搜索结果页上。

但是,如果同一域名下的两个网页列表同时出现在Google的同一搜索结果页上,譬如一个在第2名,另一个在第10名,Google就会把这两个来自同一站点的列表整合到一起显示给用户。结果呈现给用户将是第2名和第3名。

注意:这只是我们观察到的一个现象,谁也不知道Google为什么允许同一网站可以在搜索结果中出现两次,而且谁也无法保证这种做法将保持多长时间。

 WHERE
Google在其“高级搜索”项中提供有现成的选项,分别为每页可显示10项/20项/30项/50项/100项搜索结果,如想自己来设定一个随意值,只须在Google的搜索URL中的”search?”后加上”num=xx&”(没有引号)即可。例如”http://www.google.com/search?num=9&hl=en&lr=&ie=UTF-8&c2coff=1&q=SEO”
 HOW
我们知道,把最重要,同时也是与用户的查询条件最为相关的搜索结果返回给用户是Google的一贯方针。遵循这一方针,我们为大家提供了一些可以增加网站被Double-Lisiting的方法:
1.确定网站有明确(具体)主题。避免关键词太笼统。关键词明确,则主题容易突出,容易为搜索引擎所理解。
2.我们都知道,在对整个网站做优化的时候,应该对不同网页根据其实际内容分别按不同关键词进行优化。但如果整个网站都是关于某一特定主题的,则应注意围绕该主题进行优化,并确保围绕主要的网站主题提供有数量可观的相关内容页面。
3.不要只为首页建立外部链接,可以考虑为个别重要的内部网页建立一些外部链接。
4.注意上述建议中始终强调的一点:内容和主题性。 比方说,某网站中有一关于汽车保险方面的网页,而且如果查询“汽车保险”,这个页面排名很高。但如果该网站总体上是关于“汽车美容”的,而且围绕“汽车美容”提供了大量相关和高质量的网页,那么当用户查询“汽车美容”时,Google可以从这个网站上找到多个符合其要求的网页。所以“汽车美容”被列出两次的可能性最大。
2004年08月06日

探讨Google的筛滤工具(Filters)及如何规避

  编译:Karen
探讨Google的筛滤工具(Filters)及如何规避

据说Google为了保证其搜索结果的质量和相关性,在搜索技术中采用了多种工具来筛滤并从搜索结果中剔除那些不合要求的网页。本文将探讨的问题是:Google究竟采取了一些什么样的筛滤工具,采用这些工具的目的何在,以及如何规避其任何可能存在的筛滤工具,或避免受到任何可能导致的惩罚。

Google所采用的多种所谓的“Filters”是许多搜索引擎优化专家较为关注的问题之一。他们认为Google这个搜索引擎巨人已在其搜索算法中放置了大量阻尼和锁闭装置,并将这些装置统称为“筛滤工具”。

对于“Google采用了多种筛滤工具”这种说法的依据,我们尚不得而知。而且即使对究竟是否有筛滤工具这一点也并未在搜索引擎优化业界达成共识。然而对“Google在其搜索算法中内置了一些阻尼类筛滤工具”这种说法,绝大多数搜索引擎专家还是表示认同的。使用筛滤工具的迹象依情形而定,但这些迹象在Google的整个搜索结果页(SERPs)中却非常明显。

既然在Google的搜索算法系统中涉及了大约一百个系数和变量,那么完全可能其中有一些是用作筛滤功能的。虽然一些业界专家们否认存在所谓的“筛滤工具”,但有句老话说得好,小心驶得万年船。即使将其作为一种可能性,积极采取措施来规避这种风险亦不失为上策。而且无论您是否认同筛滤工具和阻尼效果的存在,我们仍有办法来消除任何可能的影响。

我们将检查一下一些搜索引擎优化技术。这样的话,不管是否真有筛滤工具,还是只是巧合,我们都可以保证网站安然无恙,不会遭受任何可能的“筛除”甚至惩罚。

 
Google的“筛滤工具”有哪些?

搜索引擎优化业界已经注意到一些筛滤工具和阻尼效果的现象。例如众所周知的“沙盒现象”,以及所谓的“过度优化筛滤工具”。

下面的名单并不全面,也没有包含所有假定的筛滤工具。同时请大家注意:在本文中所提到的“假定的筛滤工具”纯粹只是猜测,我们的主要目的还是力求向大家展示这种可能导致网站遭到惩罚的筛滤和阻尼的普遍可能性。

虽然有一些搜索引擎优化专家不同程度地否认确实存在这种假定的筛滤工具,我们还是应该意识到确实存在着这种可能性。而且事实上有很多用来规避筛滤工具的技术同时也是使网站获得较高排名方法之一,这样就能为我们带来双倍的效益。

下面我们就来具体谈谈一些假定的“筛滤工具”,以及如何避免的一些可能的方法。

 
与链接相关的可能的筛滤工具
1 相同锚文字筛滤机制
Identical Anchor Text Filter
解决方案
这是为搜索引擎优化业界普遍认同的一个筛滤工具。大多数搜索引擎专业人士都已经注意到这样一个现象:如果一个网站均采用完全相同的外部链接文字,则不但不会提高网站的排名,反而会增加一些“危险信号”– 网站很可能因为这种链接而遭致搜索引擎惩罚。这是由于搜索引擎会怀疑这些链接并非都是自然创建的,并怀疑该网站这样做是出于为获得更高排名和链接度的目的而人工操纵链接。我们上面提到的“沙盒”就是这样一个搜索引擎业界所公认的Google针对外部链接的筛滤机制。 对这种筛滤机制的防御措施非常简单,其中一个方法就是在链接文字的措词上稍微下点工夫,只消保证链接文字内容中80%不变,20%为选择性内容即可避免这类问题的发生。
2 “links.htm”筛滤机制
Links.htm Filter
解决方案
这种观点认为:如果一个网站专门创建一个页面来放置所有其它网站的链接,也就是我们所说的导出链接,而且这个页面又被命名为“links.htm”,则该页面容易触发筛滤机制。有迹象显示这种类筛滤机制可能存在,不过这只是我们的猜测而已。因为有很多站主都已经发现其“links.htm”页面不但没有为他们自己的页面等级带来任何改善,而且也没有为其链接伙伴带来任何页面等级或链接上的收益。 为确保万无一失,可把相关的链接页改一下名。事实上,我们建议大家根本不要使用“链接”或“LINK”这样的词。此外,将这些链接按主题进行分类,然后分几个页面放置,也不失为一个好办法。
3 互惠链接筛滤机制
Reciprocal Link Filter
解决方案
关于互惠链接是否会触发Google的筛滤机制,也是大家比较关心的问题之一。有迹象显示互惠链接页可能不如其它页面那样受到搜索引擎的重视,但这可能是links.htm筛滤机制的一个副作用。例如博客站点往往包含了大量的互惠链接,但看起来却丝毫无损其外部链接和页面等级。 其中一个方法是在网站总的导入链接中,保持非互惠链接(只进导入链接)的数量占绝对优势。
4 交叉链接筛滤机制
Cross-Linking Filter
解决方案
同一服务器下大量站点的交叉互链,尤其是位于同一C类IP地址块中的大量网站的交叉互链(例如在IP地址123.123.ccc.123中的“ccc”就是C类地址 ) ,往往容易被搜索引擎当作一种“作弊”手段。有些人认为只要超过20个链接站点就会触发这类筛滤机制。Google一旦发现这样的链接形式,尤其是没有来自相同主题的其它外部权威站点的链接,则会忽略这些外部链接。要么降低网站排名,要么直接从搜索结果中筛掉。 在交叉互链时应注意避免此类问题。首先要避免来自同一主机站点的大量互惠交叉互链,其次在交叉互链时可采用三角链接结构,即A链向B,B链向C,C链回A。切勿使用其它任何组合形式。
 
其它潜在的多原因筛滤工具
5 过度优化筛滤工具
Over-Optimization Filter
解决方案
所谓的过度优化筛滤工具看起来好象是多个筛滤程序起作用的最终结果,而非某一原因下的产物。虽然尚无法确定这种筛滤工具是否确实存在,但在去年对大多数网站来说如梦魇般的Google Florida更新以及后来的 Austin更新中,却掀起了其冰山一角。罪魁祸首似乎当属现在独立出来的锚文本筛滤工具,以及因滥用h1和h2标识,以及关键词堆砌所导致的形形色色的页面问题。 过度优化筛滤工具看来对因为热门而充斥了大量作弊手段的关键词语反应最为活跃。处于竞争较为激烈的关键词范围内的网站应注意在内容中保证最为合理的关键词使用率。关键词密度最好不要超过3%。关键词自然恰当的使用不但易博得搜索引擎的好感,而且亦可为访问的销售转化率增色。注意:即使只是滥用关键词这一项亦可能激发Google的筛滤程序。此外还应切忌滥用h1和h2标签,并确保每个页面的网页标题不但应与该页的实际内容相关,且具唯一性。
6 沙盒筛滤工具
Sandbox Filter
解决方案
一些人认为Googgle专门针对新建的外部导入链接设置了一个阻尼装置,所以新建立的外部链接无法获得和那些“老”链接相同的重要性。人们对该猜测的讨论往往会和颇具知名度的沙盒筛滤工具联系起来。
据说沙盒筛滤工具的运作方式与此相同。一个新站点在Google中的排名先是一升再升,然后又会一跌再跌。人们猜测这种现象就是沙盒发挥作用后的产物。
一旦网站被“请进”沙盒,在两到四个月内它在搜索结果中的排名还会持续攀升, 达到较为理想的排名。但是在沙盒期内,无论这个网站的外部链接数量多么可观,质量多么上乘,也无论其页面等级多么高,这个网站的排名也会一落千丈。所以有人认为:网站的外部链接在短短时间内“暴富”未必就是好事,它可能是引起沙盒现象的其中一个原因。
对新网站而言,一方面应注意不要过于迅速地创建大量外部链接,其次,先建立一些外部链接后再发布网站可能有助于完全避免沙盒现象。
7 内容雷同筛滤工具
D uplicate Content Filter
解决方案
不止是雷同的网站内容可以激发筛捡程序,而且那些含有大量相似内容网页的网站也会导致筛捡程序的启动。倘若确实如此,则站应仔细修改网站的内容,并保证每个网页都与其它页面明显不同。当然了,即使是从搜索引擎优化的观点来看,大量内容不同的网页,每个网页均有其单独的标题和主要关键词,这样作也会导致更多的网页将在搜索引擎中获得好排名。 避免网页内容发生雷同的可能性的最好办法还是确保所有页面均包含独特不同的内容。通过不断地内容更新以及增加不同的网页,网站不但能够避开“内容雷同”之嫌,亦可因保持新鲜的网站内容而博得搜索引擎的好感,从而增加提升搜索引擎排名的机会。
 
结束语

如文章开始所说,这些假定的筛滤工具中有很多都是基于不完全的观察,因而我们所说的筛滤工具和阻尼工具并不一定完全正确。但从另一方面来说,无风不起浪,事出必有因。

避免筛滤或阻尼工具的最好方法是使用大家所公认的搜索引擎优化技术。调制外部导入链接的文字内容,为每一个页面撰写自然而有说服力的独特的内容,避免堆砌关键词。避免内容的雷同。切忌使用仅仅出于企图欺骗搜索引擎的任何可疑的优化技术。

2004年07月03日

搜索引擎优化专栏—“自动转向”技术

编译:Karen

一:什么是自动转向技术(Auto-Redirecting)?  
 
 
自动转向,也叫自动重定向。自动跳转,指当访问用户登陆到某网站时,自动将用户转向其它网页地址的一种技术。转向的网页地址可以是网站内的其它网页,也可以是其它网站。
通常情况下,浏览器会收到一个网页,该页面含有自动加载一其它网页的代码。该页面有可能在服务器端被转换,这样的话,浏览器只收到一个页面,而自动转向往往意味着浏览器收到的页面具有自动将访问用户送至其它页面的功能。

对自动转向技术的合理应用包括:将用户转向到指定浏览器的网页版本;当网站的域名变更或删除后将人们转向到新域名下,等等。但现在这种技术却往往被搜索引擎优化人士用来作为提高网站的搜索引擎排名的一种手段。例如,先专门针对搜索引擎做一个高度优化的网页,也就是我们通常所说的“桥页”,然后把这个网页提交给搜索引擎来获得好的排名。但是,当搜索用户通过搜索引擎的搜索结果列表点击该网页列表进入后,将被自动转向到一个用户本来无意去访问的网站地址。搜索引擎常常认为自动转向的网页是对读者的误导,所以它会对这种网页或网站施以惩戒,不过对一些自动转向方法它目前还无法自动检测出来。

 
 Meta Refresh Tag自动转向法 
 
 
 
由于搜索引擎能够读取HTML,而Meta tags也是HTML,所以对于这种自动转向法,搜索引擎能够自动检测出来。因而无论网站的转向出于什么目的,都很容易被搜索引擎视做对读者的误导而受到惩罚。不过,如果跳转延迟时间设置合适,搜索引擎就不会视之为作弊。
页面定时刷新元标识(Meta Refresh Tag)只能放在HTML代码的< HEAD>区里。如下所示:
 
<meta http-equiv=”refresh” content=”10; url=http://domain.com/page.htm”>
 
其中的“5”是告诉浏览器在页面加载5秒钟后自动跳转到page.htm这个页面。
这种方法常可以在论坛中见到。如果在论坛上发信息,先会看到一个确认页面,几秒后会自动重新跳转回当前的论坛页面中。

从搜索引擎优化的角度出发,一般不希望自动转向有延迟。不过,如果是用Meta Refresh标识进行转向,一定要注意把延迟时间设定成至少10秒以上。
 
 “Javascript”自动转向法
 
 
 
由于不能解析Javascript,所以搜索引擎无法察觉(自动检测到)用Javascript脚本进行的自动转向。JavaScript自动重定向脚本可以放在网页的任何位置上,如果要求立即跳转,则可以将其放入网页源码的<head>区内的最上面。用Javascript实现跳转的范例如下:
<script language=”javascript”><!–location.replace(“pagename.html”)
//–>
</script>
 
其中的“pagename.html”指特定的重定向目标地址,用相对/绝对URL地址均可。
用Javascript实现自动重定向的好处在于:用户所访问的目标URL不会保留在用户浏览器的历史记录中,如果用户按返回按钮返回,则将回到跳转前的网页,而不是包含JavaScript自动重定向脚本的跳转页面,所以不会出现当用户点击返回按钮后返回至重定向页,然后该页自动跳转到用户本来想离开的那个页面的尴尬情形。

如果需要,可以把JavaScript自动重定向脚本存在一个外部文件中,并通过下面的命令行来加载,其中“filename.js”是该外部文件的路径和文件名:
 
<script language=”JavaScript” src=”filename.js”></script>
 
注意:若需实现即刻转向,或不希望人们看到转向前的那个页面,一般常用Javascript脚本实现。在这种情况下应将Javascript脚本放入HTML源码的<HEAD>区中。
 表单(FORM)自动转向法
 
 
 
搜索引擎的“爬行”程序是不会填写表单的,所以它们也不会注意到提交表单,因而可以利用表单来实现自动转向(重定向)而不让搜索引擎察觉。
对于表单,人们往往很少意识到:表单的Action参数中包含的URL地址其实正是浏览器向服务器所请求的URL。浏览器将会通过向请求的URL地址增加一些格式为name=value的参数给予它以特殊的对待。在什么都没有的情况下,浏览器仍旧会为该URL安排请求至服务器。

用Javascript脚本可让页面开始加载时即提交表单。下面是一个用Javascript实现表单自动提交,以及提交表单的范例:
 
<script language=”javascript”><!–document.myform.submit()
//–>
</script>
<form name=”myform” action=”pagename.html” method=”get”></form>
 
其中“myform”可以是任意名称,“pagename.html”用相对/绝对URL地址均可。
 小结 
 
 
 
如果访问用户最终看到的是他们想看到的,那么在搜索引擎优化中使用自动转向技术并没有什么不对,也并不是什么不道德的行为。但有些人往往会在利用“自动跳转”技术,利用“桥页”吸引访问者,然后把他们送到他们无意浏览的页面或网站,这种做法只会引起访问用户的反感,又怎么能够期望访问流量可以有效转化为最终客户呢?

2004年06月15日

提高网站友好度的十点建议
2004-06-14 10:10:28 posted by Lela

——————————————————————————–
 
  改善站点的可用性并不是一件耗费时间的事,既不会有昂贵的成本投入,也不会有很多技术困难,你只需要用一点常识来考虑,然后下定决心去实行就可以了。但是,网站改善后的亲和力效果却是无可比拟的,下面就是提高网站友好度的十点建议,供大家参考。

  1、增加网站地图

  不管你的网站规模有多大,你都应该加入一个详细的、文本格式的站内地图,地图中的每个链接都应指向网站的每一个网页,最好附有每个网页的内容简介。加入站内地图的好处就是你不用把每一个网页链接到主页上,只要在站内地图上做好这些链接就可以了。站内地图不仅使浏览者很好的从你的站点上找到某些特别信息,而且它是蜘蛛爬行程序的好“食物”,它可以使 搜索引擎很容易的索引到站点上的每一页。

  2、建立合理的导航结构

  设计网站导航菜单时,使用合理的标题和链接描述。例如,网站设计服务(web site design services)要比因特网服务(internet services)更加直觉易懂。使用Cookie Crumbs表示出浏览者所处的站点位置。就像在某些站点及搜索门户的顶部显示一样,告诉浏览者已经浏览过的类目或网页(如, Hom>Travel>UK>Bristol>Bed&Breakfasts)从而引导浏览者了解整个网站的路径。你可以使用Call-to-Action链接模式引导浏览者查看下一个网页或者采取下一步行动,如,点击这里预定(Click Here to Order),将此页加入标签(Bookmark This Page)或查看目录(View Our Catalogue Now)等。

  3、定期检查错误

  再没有比打开网站或站内链接后却没有任何内容时的情况更糟糕了。你最好每月至少检查一次网站以确保没有死链接。有些软件可以帮助你检测这些问题,而且价格不贵,比如Link Defender就是一个不错的选择。还要检查你的HTML编码能够使网站内容在任何浏览器版本中正常显示。重要的是应该确保主机提供商稳妥可靠,使网站能够连续正常的工作,而不是产生不必要的停工现象。

  确保网站内容没有拼写或语法错误,如果自己不善于写作,那么可以请朋友或同事帮助检查网站脚本,改正一些错误。网站测试阶段就应该考虑到针对世界不同的浏览者使用相应的地方拼写习惯,如,英国读者对应美式英语。

  4、网站的设计布局合理

  在网站每页的设计布局上应该遵循常识惯例,使每一页都做到设计合理,布局协调一致。这就是说,同一页面上使用统一的颜色、标识、协调的导航条、标题和页脚,链接特征一致(如统一使用下划线)。这样有助于亲和浏览者,也不至于使他们对网站产生迷惑从而失去继续浏览的兴趣。

  5、嵌入站内搜索工具

  一个亲和用户的网站应该加入站内搜索功能,即可以通过特定关键词来搜索站内内容。觉得这样作很难吗?不,使用软件程序就可以轻而易举的解决,比如说Atomz Site Search软件,可以搜索站内大约500个页面,而且是免费的。这是一种装置快捷,使用简便的站内搜索工具,对于更大的站点提供付费版本。

  6、确保所有的窗口正常工作

  这是显而易见的,如果站内设置了反馈、时事通讯注册、游客登记等功能窗口,那么一定要确保他们正常工作。特别要注意每个填写框都应足够大,确保能够容纳下所有的内容,包括最长的名字,同时还要考虑到来自国际的浏览者可能要输入邮编等信息。最好自己测试一下完成信息输入后是否能够正确提交并显示正确的确认信息。

  7、确保购物车的可使用性

  这一点对所有的电子商务站点来说特别重要。电子商务站点要确保产品的描述、图片、规格等的介绍详细,产品价格透明,价格中应同时包括运费成本、税金等的信息。如果是国际贸易类型,还应提供外汇兑换计算器,比如免费的XE软件,帮助访客换算成本国货币进行费用比较。确保购物车页面由SSL进行保护或通过安全保护验证证书使访客放心使用个人信用卡。完成交易后显示简单的说明,提供方便的后退功能,每页上都标明购物帮助邮箱或电话号码,便于访客遇到困难时提供帮助。对于即时交易,交易完成后立即确认并发出收据。只要是在线窗口,一定要不厌其烦的测试、测试、再测试,注意,一次购物失败的经历可能会使你的失去一个潜在的长期客户。

  8、提供详细的联系方式

  随着互联网的扩大使用,人们不可能不对在线交易保持谨慎。为了建立信任,你完全应该且必须在网站的显著位置标明具体的联系方式。如果你不想为访客提供联系方式,那么还有人愿意从你那里买东西吗?联系方式应该包括公司地址(最好是详细的街道地址和邮局地址)、电话号码和至少一个邮箱地址。如果担心垃圾邮件的骚扰,你可以用HTML编码器隐藏邮箱地址或者用联系表格提交方式与你取得联系(但大多数人包括我并不喜欢后者)。

  9、用简单易懂的语言描述内容

  因特网是个拒绝冗长的地方。上网的人都是行色匆匆,他们希望尽快找到自己需要的东西,尽量减少冗繁的步骤。针对这一现象,你的网站页面就应该用简单的语言,使大家尽快领会所有的概念。比如当表达专业网站设计师提高网站品牌的理念时,用“website designers specializing in brand promotion”,而不要用“brand-building web information architects”。网页的文本语言要做到数量最少,用最关键语句和子标题表达页面内容的中心意思或展示产品优势。当构思网站脚本时,记住这句哲言“如果是我的话,我怎么想?”WIIFM(What’s In It For Me?) ,想想怎样保持访客对网站的兴趣。还有一点,就是针对国际上的浏览者,不要使用方言或行业用语。如果想使访客进一步采取行动的话,那么就用简单英语吧。

  10、让搜索引擎对网站友好

  最后,确保网站可以吸引搜索引擎。一个亲和用户的网站同时也是一个讨搜索引擎欢心的网站。在图片中加入大量的文本描述和标题,用文本导航条取代图片或java描述语言菜单,避免框架结构、Flash或任何妨碍搜索引擎蜘蛛程序索引的编码,为每页加入标题及元标识引导页内内容匹配,使目标关键词及搜索用语分散在网站内部,便于搜索引擎针对相关搜索时,你的网站可以获得较好的 排名及收录进较好的目录,有必要的话应该请专业的脚本编写人帮助编写广告文,不要只考虑到脚本的可读性就将就去做。这些都是可以吸引搜索引擎的不错的办法。

  以上是使网站增加用户友好度的十个建议,每周采用一项建议,你的浏览者将更加喜爱你的网站,成为忠实访客。【By: Kalena Jordan ,编译lela】
 

2004年06月02日

了解Google Dance工具
原著:Richard Zwicky 编译:Karen
作者简介: Richard Zwicky: Metamend软件公司的创始人和首席执行官。tamend公司位于英国哥伦比亚州维多利亚市,是一家搜索引擎优化软件公司。
参考: Google-Dance-Machine

摘要:在Google Dance过程中,你可以检查上页所列的这8个Google网络服务器。某段时间内它们显示的结果会有较大的不同,就好象在跳舞一样。正因如此,它们的更新过程就被称作“Dancing/跳舞”,所以就有了Google Dance这个名字。

无论是参加贸易展销,开研讨会,还是在座谈会上发言,都会有人问我这样一个问题:“Google dance是什么东东?”我也听到过若干不同版本的“Google dance”论,不过只有一种说法是对的:Google Dance其实就是指Google重新安排它的搜索结果的排名的过程。在Google Dance时期(三到五天内),你可以发现Google的搜索结果会有大幅度的波动。

Google多长时间更新一次? Google Dance这个名字通常用于描述Google搜索引擎对其主要的索引结果进行更新的过程。每隔36天(一年10次),Google会对其主要的索引结果进行一次更新。不过在今年的5月,Google提前对其搜索结果进行了更新,而且是一次大的更新。

Google的更新过程可以很容易地通过搜索结果的显著变化来识别,通过Google对所有索引页面的网页快照的更新也能够看出来。你可以发现,每一分钟都会有明显的变化。不过Google的更新过程并不是象开关切换那样,从一个索引列表瞬间就可以切换到另外一个索引列表。实际上,Google需要几天的时间来完成对主要搜索结果的更新。由于Google也和其它搜索引擎一样,以其随时向其访问者提供权威而可靠的搜索结果来赢得客户。这样Google的更新过程就变成一个比较严重的问题。在更新过程中,Google不可能关闭服务器来进行维护,即使是只有一分钟的掉线也会给Google带来不可想象的损失。所以就有了我们现在看到的这个术语–Google Dance。

其实每个搜索引擎都会定期的对其数据库进行更新,以保证提供最新的搜索结果。只是它们的更新周期各有不同而已。但是由于Google作为搜索引擎的龙头,有着巨大的影响力,因此我们对它的更新倍加注意。在Google的更新过程中,其索引始终在变化,所以它的搜索结果也会有很大的变动。页面等级(PageRank)和返回链接的更新也是在这个时期完成的。 是不是只有搜索结果得到更新?

  事实上并不是这样。任何一个更新过程完成之后,Google搜索结果的页面位置都会有一些变化。一方面这是由于Google的网络蜘蛛(spider)一直在活动并不断发现新站点;另一方面是由于一旦网络蜘蛛检测到那些失效的“死”站点,便会将这些站点从其索引列表中删除。而在Google Dance过程中,Google的Robot会对每个已被收录的站点重新进行遍历,计算其链入和链出数,并对这些链接的价值进行评估。然后根据其PageRank系统来计算每个页面的PageRank值,再依据这个数字来重新安排各个站点在列表中的位置。

  因为Google总是在遍历和更新其挑选的页面,因此其搜索结果在这一个月内也会有稍微的变化。不过只有在Google Dance期间,其搜索结果才会有幅度较大的变化。你要考虑到Google有8个数据中心,共享着超过一万台的服务器。由于某种原因,Google索引列表的更新虽然在几天之内完成,但整个搜索结果的更新会持续一个月。无论是对Google还是其它搜索引擎,搜索列表的更新工作自始至终都是必不可少的。这些在进行中所增加的更新,在任一时间内,只会影响索引的一部分而不是全部。
如何检查Google Dance? Google有8台主要的WWW网络服务器在线,它们分别是
1. www-ex.google.com – (就是我们平常所用http://www.google.com)
2. www-sj.google.com – (亦可通过www2.google.com进入)
3. www-va.google.com – (亦可通过www3.google.com进入)
4. www-dc.google.com
5. www-ex.google.com6. www-in.google.com
7. www-zu.google.com  
8. www-cw.google.com
在Google Dance过程中,你可以检查上页所列的这8个Google网络服务器。某段时间内它们显示的结果会有较大的不同,就好象在跳舞一样。正因如此,它们的更新过程就被称作“Dancing/跳舞”,所以就有了Google Dance这个名字。   想要查看Google Dance是否在进行中,最简单直接的办法就是到http://www.google.com 去做一个查询。在Google搜索结果页面上方的蓝条中,会显示这样的信息:“共有626,000项查询结果,这是第1-10项。搜索用时0.48秒。”然后你再到www2.google.com和www3.google.com上做相同条件的查询,如果相同的查询得出的搜索结果数量不同,那就表明Google正在更新中。

  当然了,你也可以查看所有上面列出的8个网址。www2其实就是www-sj,www3 是www-va。需要注意的是,在URL一栏要求输入完整的地址www-扩展名.google.com才能得到正确的测试结果。也有一些网站提供了这样的工具,允许你对这8个数据中心的搜索结果同时进行检查,并比较查询结果。如果在上述8个网址下的搜索结果数量和排名顺序都相同的话,就表明Google的更新过程已经完成了。

Google Dance的重要性:
  对大多数人来说,Google的更新过程对他们来说并不重要。然而对于任何一个身处搜索引擎优化行业的人来说,这却是一个值得注意的时期。首先,在Google Dance时期,我们总会接到很多客户的电话,说他们在Google上找不到自己的网页了。其实这都是暂时的。但有时候这种状况可以持续一天, 所以便引起了人们的恐慌。当这些网页在Google上再度出现时,它们的排名已经较原来更靠前了。这样才平息了人们的恐慌。看到这个搜索引擎具有如此的重要性,不能不说是一件非常有趣的事情。 Google Dance的技术背景:   Google的搜索结果来源于上万个网络服务器。这就意味着当你在Google中键入一个问题或查询时,由这上万个服务器中的一个来处理你的查询请求。而且它必须在远小于一秒的时间内响应你的查询(给你想要的查询结果)。试想一下吧,这就好象我们把国家图书馆里所有的书籍都平放到一个飞机场的地上,然后寻找“孙子兵法”,目标是希望在一眨眼的时间内就能找到正确的结果。——几乎不可想象,是不是?可是别忘了,我们每天都是这样在搜索引擎上搜索我们想要的东西的。

  Google使用的是Linux服务器。在Google对其索引的更新过程中,它的8个数据中心的上万个服务器都会被更新。当然,从一个索引到下一个索引总会有一些变化。这只不过是由于总是有新的页面被添加进来,同时一些网站内容的变化也会使它们在搜索结果上的排名发生变化。不过在Google Dance过程中,这些变化是极具戏剧性的。新的索引会分割后传送给这些服务器,依次对这些服务器进行更新,直到最终这些服务器全部更新为一个全新的索引数据库。 Google Dance和DNS(域名服务器):   Google的索引结果由8个不同的数据中心所提供。在这8个数据中心中包括了上万个网络服务器,这些数据中心主要被安放在美国。Google 使用多种数据中心以更快地对终端用户的搜索请求给予响应。如果你试图进入一个物理上向你关闭的数据中心,那么从理论上来说你的链接需要更少的跳点,或你需要经历更少的内部节点来进入数据中心和返回你自己的地址。每个数据中心都有它自己的IP地址(Internet上的数字地址),并由DNS(域名服务器)对这些IP地址的访问路径进行管理。DNS系统可立即将你的请求路由给距离你最近或负荷较轻的那个数据中心。然后再经由那个数据中心将你的访问轻松路由给一个闲置服务器。通过这种方式,Google通过使用DNS列表,采用分两步走的方式,达到了传输负载的均衡。并使访问量的管理内在化,从而缩短了数据传输的距离,并提高了对搜索请求的响应速度。   在Google Dance过程中,并不是8个数据中心的所有服务器都能够同时接受新的索引。事实上新的索引只能被分割传送给每个数据中心,分割后的每个部分又被依次传送给每个数据中心。不同的分割段在不同的时间内被上传给每个服务器群,这样也会影响到搜索结果。   

在Google Dance过程中,倘若用户在Google上进行查询,他们可能在这一分钟得到的查询结果来自一个其全部或部分数据尚未得到更新的数据中心,而在几分钟后又会从另外一个数据中心得到更新后的数据。但从用户的角度来看,这个变化发生在不到一分钟内。

  搜索引擎大约每个月都进行一次全新的索引,但因此也导致其产生了很多的问题。毕竟搜索引擎要对成千上亿的文档进行遍历和索引,然后把其编译的结果数据处理成一个连贯的单元,这可不是一个小工程。即使过了Google Dance,在搜索结果上可能还会有一些较小的波动。这是由于在不同数据中心上的索引不相同所至。 新网站的加入,废站点的删除,等等。据估计每天至少会有八百万个新网页生成,其中有一些被加入搜索引擎,从而影响了搜索结果。

  现在,如果你想看看Google对其Google Dance所下的定义,可访问其相关页http://www.google.com/googledance2002。非常有意思,值得一看哦!