TSPR理论-如何应对Google PageRank排名新算法(二)
原著:Dan Thies
编译:Karen
第二部分: 探索Google PageRank新算法(上)
---对Google的新排名算法有多种猜测。此文仅做抛砖引玉之用。
2-1. Google的主题性趋向
2-1-1. 关于页面级别(PageRank)及Google的旧算法出现问题的原因
页面级别(PageRank)计算系统所遵循的思路是:通过一个经由互联网的“随机运动”来告诉你哪些站点是最重要的。该系统模拟的是一个随机冲浪者跟进点击某页面上的随机链接,至最深层页面时按“返回”按钮这一过程。页面的等级越高,则随机网络冲浪者发现它的机率亦越高。
这种思路其实相当富有创意。一个网页的外部链接越多,则对任意网络冲浪者来说,发现它的机会也就越大。同时,在页面级别算法系统中,页面越流行,则其导入链接就越能从链接中受益—这是由于任意网络冲浪者发现这些链接的机会就越大。
在特定领域的研究论文查询方面,页面级别系统几乎无可挑剔。例如,如果用户查询关于素粒子物理学研究方面的论文(或网页)文献集,则对于一个给定条件的查询,页面级别的算法可以很快告诉你,哪些论文才是与该特定查询条件最相关及最重要的论文,其原因就在于这些论文较其它论文的引用次数要多。
若互联网上的资源具有同一主题性,那么这种工作可说是尽善尽美了。但正如我们所知道的,互联网上的资源涵盖了上百万甚至更多的主题,而且在人们的实际生活中,查询用户所寻找的往往是一些具有特定主题的信息。所以虽然页面级别系统考虑了所有链接,但却忽视了链接页面的主题性。
Google已试图将链接的文本内容计入排名算法来克服这一局限性。但精明的搜索引擎营销商却通过在网络上到处建立充盈关键词的链接来欺骗Google的排名算法。一种新的作坊式行业也随着PageRank应运而生—即有偿交换和交易一些来自较高“页面级别”页的链接。
如果网站能够从毫不相关的站点购买或交易导入链接而使网站排名得到提升的话,那么页面级别技术已然无法为绝大多数查询条件提供高质量的搜索结果了。我们有理由相信,当Google这个世界最顶级的搜索引擎一旦发现其搜索结果的质量开始恶化时,它是不会坐视不管的。
2-1-2. 新技术闪亮登场:主题性页面级别技术(Topic-Sensitive PageRank)
2002年,斯坦福大学的一名博士生塔赫尔。哈维利瓦拉(Taher H. Haveliwala)发表了一篇非常有意思的论文,名为“Topic-Sensitive PageRank(主题性页面级别计算系统)”。而更加有趣的是,一年之后哈维利瓦拉成了Google的一份子。
“主题性页面级别计算系统”通过对随机查询用户的随机运动增加一个“偏差”来处理基本的页面级别计算系统所存在的问题。这个新的随机查询用户具有明确的查询目的,并更感兴趣于跟进那些具有某个特定主题的相关网页上的相关链接。这是一个相对而言较为新颖的思路,它解决了搜索结果的质量性方面的一系列关键性问题。
毫无疑问,哈维利瓦拉将成为搜索引擎业界中一个举足轻重的角色。他已经在搜索技术的其它领域方面进行了一些实质性的研究工作,包括如何更有效计算页面级别方面的一些比较有趣的研究。
在最初的研究论文中,哈维利瓦拉描述了他是如何利用斯坦福大学的网络数据库,对应于ODP(开放目录)的16个顶级目录的16个主题来计算“主题性”页面级别得分。虽然该研究的主题和数据数量(8千万个网页)十分有限,但能够看出这种新系统可改善搜索结果,且具备对查询用户感兴趣于何种主题的理解能力。
就在去年,当我回过头来再阅读这篇论文时,我注意到哈维利瓦拉所描述的这种系统对搜索引擎来说还存在着两个问题。不过下面我们将会看到,这两个问题现在都能得到妥善解决了。
第一个问题是充分拓展主题的数量。要想改善搜索结果,16个主题自然是远远不够的。但由于Google的页面级别计算系统的代价非常之高,因而除非新系统能够提供一些改进的措施,否则Google不大可能实施这个新系统。但随着这一领域在过去的一年中的深远发展,因而我相信现在在主题数量上已不是大问题了。
第二个问题就是如何决定一个查询条件可能对应的主题–- 当用户输入诸如“自行车”一类的查询条件时,这个用户是想买自行车呢,还是想骑自行车旅游呢?下面我将为大家简单阐述一下Google可能会怎样匹配一给定查询条件以最恰当的主题,以及为什么一些查询条件更容易受到影响的原因。
2-1-3. 关于Applied Semantics公司及其专利技术CIRCA
Applied Semantics网络广告软件公司是互联网广告方面的专家,于2003年4月份被Google收购。Google此举旨在加强搜索和广告功能。如今该公司的技术已对Google产生了深远的影响。例如在Google的Adwords关键词广告系统中,为PPC广告客户提供基于内容的广告就是采用了Applied Semantics的AdSense技术。
事实上Google在这次收购中获利的还不止AdSense技术,AdSense的后台技术其实就是Applied Semantics公司所拥有的专利技术CIRCA。
CIRCA技术所基于的是一个独立语言并具有高度扩展性的本体论,这个本体论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概念性关系。由复杂的搜索技术所支持的本体论是对词语的多样性含义的概念性理解的基础,它能够使计算机对信息进行更加有效的管理和检索,从而为搜索用户更好的提供探索知识的机会。
CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的关键词词根还原系统。
尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例如,如果用户查询“Colorado bicycle trips”,CIRCA能够将其与“Colorado”地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。
2-1-4. 二者的有机结合:主题性搜索引擎的实现
现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜索引擎呢?
首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念,Google已然解决了如何计算其主题性页面级别的问题。
在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近似计算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行性。
现在,如果用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包含的主题之间的“距离”来提供“主题性页面级别”得分,从而向用户提供更好的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。
由于一个给定的搜索查询条件有可能与数据库中的多个主题匹配,所以页面级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得分平摊,因而只需近似的主题性页面级别得分就足以提供高质量的搜索结果了。
当数据库中无任何主题与用户的查询条件匹配时,则Google可使用原来的页面级别系统。若与查询条件匹配的主题太多,则仍使用新系统计算主题性页面级别得分,尽管新算法可能会与原算法得出的分数相似。如果匹配主题与查询条件之间的相关度很低,则效果亦会大打折扣。
2-1-5. 安然接受和理解算法的改变
可能某些查询条件返回的搜索结果有较大的变动-–但原来在搜索结果中排名在前100位的网页全都被刷下去的情形却少之又少。
有效数据所面临的一个大问题在于:对于发生搜索结果改变较大的报告呈上升趋势。从这些“自述”数据之中我们可以看到Google的很多搜索结果发生了彻底的改变。而造成我们看到这种局面的原因恰好在于,这些“自述”数据中的绝大部分都是由那些排名被刷下来的网站提供的。
我们并未从这些“自述”变化着手,而是采用了另外一种途径,即从若干可用的网上资源中记录下最近时间内发生的搜索,然后观察搜索结果中的变化。
我们随机(没有任何成见地)研究了上百个人们日常使用的真实存在的查询条件,并标识出其中每个查询条件的改变总数,然后我们发现改变的程度在总体上仍保持着一贯的干净局面。在实际生活中,这种根本性的改变只是发生的例外,把它当成规则就大错特错了。
2-1-6. 主题并非关键词... 亦并非十全十美
千万不要把“主题”和“关键词”相混淆。主题代表的是一个综合性题目,例如“计算处理”、“市场营销”等等。而特定的查询条件(关键词),如“笔记本电脑租赁”,“电子邮件营销”等,将与更多的综合性主题联系起来。
但从Google目前所提供的一些搜索结果来看,不难发现其中的部分搜索结果所匹配的主题是错误的。例如对”laptop rental”,用户搜索“笔记本租赁”往往是想租赁一台笔记本电脑,但在Google返回的搜索结果中,排在前面的却是大学里面的笔记本租赁信息-- www.google.com/search?sourceid=navclient&q=laptop+rental。
这是怎么回事呢?只要看看链接到这些网页上的链接,就可以发现这些链接大都具有相似的主题性,如Computing,Housing(学生在校园里出租住处),等等。大家可以用其它词语进行查询,然后分析排名靠前的那些页面上的外部链接,就会更容易理解为什么“laptop rentals”会有如此的搜索结果了。
Google仍有可能提供不够理想的搜索结果,当然也有可能再次受到蒙骗,只是这种机率越来越小而已。同时我们相信Google会多花一些时间来修正这些问题。
2-1-7. 为什么只有部分搜索结果页发生了根本的改变?
我们不必理会那些对Google新算法的非议,只要再来看看真实的数据,你就不难理解为什么有些查询条件较其它查询条件更易受到影响。
我们以“Real Estate”为例,依照Scroogle.org的方法论,有77个原来排名在前100位的网页排名降到了100名之后。而对于更为具体的查询条件“Colorado Real Estate”,有24个排名在前100名的网站受到了影响。
而在那些被刷下来的网页中,我第一个看到的是一个标题为“Southern California Real Estate”的页面。有趣的是,倘若用“Southern California Real Estate”进行更具体的查询,你会发现它排名高踞第二位。换言之,这些网页并不是受到了Google的处罚,而只是由于缺乏对查询条件的相关主题性而使排名掉下来罢了。
也有极少数竞争性很强的查询关键词对搜索结果的排名没有造成什么影响。这种现象已被用作对Google排名算法的各种猜测的正确性与否的一个依据。但我认为对这种现象的解释其实也很简单--以“search engine optimization”为例,在返回的搜索结果中,前30个网页列表几乎没什么变化。如果对排在榜首的页面进行分析的话,就可以发现这些网页上的外部链接都具有良好的相关性,这样的网页在一个主题性页面级别的计算系统下也会做的很好。
可能Google采用的新算法与我的猜测大相径庭,不过目前为止我尚未发现比这更好的猜测。不过这些并不重要,我们只要清楚一点:不管Google怎么改变它的算法,成功的秘诀其实相当简单--胜出的往往是那些拥有大量内容和大量相关链接(包括导入链接和导出链接)的站点。而那些使用门页(Doorway Page)和链接交换的网站就不会再这么好运气了。
第二部分: 探索Google PageRank新算法(下)
---对Google的新排名算法有多种猜测。此文仅做抛砖引玉之用。
2-2:传言止于智者
关于Google新算法的种种猜测和谣言已是满天飞。其中大多数都倾向于Google使用了“过滤系统”或“处罚”了某些类型的站点。对Google来说,“过滤掉”一些太过SPAM的站点并不是什么新鲜事。Google早在几个月前就开始着手抓捕那些使用隐藏文本技术的站点。但我却看不出这些过滤系统或惩罚措施,或者甚至两者的结合如何解释Google目前的搜索结果的变化。
正如上面的研究所表明的,如果Google筛除了前100名的一些站点,那么这些网站的位置将被原来排名紧随100名之后的网站取而代之。但我们看到的却并非如此。跃居前十位的反而是那些过去名不见经传(1000位之后)的网站。 显然,并非过滤系统在作怪,而是Google采用了一种全新的网页排名机制。
2-2-1. 传言一:Google开始使用词典对号入座
去年的11月15号,几乎就在Google的更新一开始,这方面的传言就出炉了。这也是出现的第一个试图解释新搜索结果的猜测。其思路是:Google有一个查询词条名单,并以此对商业站点进行”惩处”或类似于此。
若简单如一个商业词条”词典”,那么将会有过多的搜索词条被牵涉进来。更为可能的是:Google拥有一个主题名单,并以此计算网站的主题性页面级别得分。这些主题旨在提供更好的搜索结果而不是要去处罚任何网站。
2-2-2. 传言二:Google意图施压使商业站点使用Adwords广告服务
在众多传言中,它当之无愧属头号谣传。这类传言认为:Google把那些未使用其Adwords广告服务的网站的排名拉下来。另一种说法则是Google把那些使用了它的Adwords广告服务的网站的排名拉了下来。
这两种观点不但自相矛盾,而且很难使人信服。实际上,我们都知道,Google并没有理由这么做,它在对待“付费广告”和“免费搜索结果”这两种服务上的态度一向很审慎,而且分得很清楚。Google也无需“强迫”任何人来购买它的广告服务。
缺乏足够商业经验的人可能会相信这类传言。一个生意人购买广告服务的前提是这个服务必须能够使他获利。如果Adwords服务能够使他们有利可图,他们自然会选择Adwords。客户决定是否使用Adwords服务和他的网站是否出现在Google的免费搜索结果之间没有必然的联系。
我不会因为我的网站出现在Google的免费搜索结果中而停止使用Adwords服务,也不会因为我的网站没有出现在Google的免费搜索结果中而使用Adwords服务。即使我的网站在免费搜索结果中的排名掉下来我也会使用Adwords广告服务。因为我做生意是为了有利润可赚。我选择Adwords广告服务是因为它能给我带来利润而无它。
2-2-3. 传言三:Google开始使用“基于贝叶斯定理的SPAM过滤系统”
贝叶斯过滤法是对付垃圾邮件的一个绝妙办法。无可否认这是一项相当完美的技术。 但并无证据表明Google会实施“贝叶斯式‘过滤系统来识别’搜索引擎垃圾”,而且我也相信Google的众多高智商的工程师也无意于此。
Google并无意图去“惩罚”或“筛掉”任何东西,它所力求的是建立一个识别最相关网页的系统。Google使用过滤系统只是为了避免被隐藏文本技术或其它恶意欺骗技术所操控。贝叶斯式过滤法与其初衷不符。
2-2-4. 传言四:Google开始处罚互惠链接
该猜测认为:Google已开始处罚那些与其它网站交换链接的网站。但从莱斯利.罗德(Leslie Rohde)发表的一篇非常精彩的分析报告中,向我们显示了这种传言和其它类似一些传言根本站不住脚。莱斯利甚至用Scroogle.org的点击列表来查阅那些”遭到处罚”的网页,但从中亦没有发现在互惠链接和Google排名之间有什么新的对应关系。
2-2-5. 传言五:Google开始处罚那些”经过优化”的网页
该猜测认为:Google正试图把那些“经过优化”的网页排名给降下来。这种猜测不但经不起推敲,而且也是毫无道理的。因为“优化”网页可以被描述为“一种结构良好的网页,清晰表明了相关主题。”
至于Google是否会处罚那些使用了诸如隐形文字,过度充斥的HTML元标识等肮脏伎俩的网页,答案当然是肯定的。但千万别把这些伎俩跟优化混淆起来,它们只是一些Spamming技术,本来就应当受到惩戒。
2-2-6. 传言六:Google开始处罚“链接文本”
绝对不是。 如果一个站点因链向其其链接文字中使用了误导性的内容而可能遭到惩罚的的话,现在早就一片怨声载道声了。
如果一个网站纯粹出于创建与关键字相关的链接的目的而创建大量链接站点,可能会瞒过过滤系统,但这种做法属于Spamming技术,本来就应当受到惩戒。
2-2-7. 传言七:Google加害于我,它是针对个人的
我虽然并未进行详尽的研究来证实这一点,但是我敢保证,它绝不会针对个人。搜索引擎以向用户提供高质量的搜索结果为己任。也许是你提供给搜索引擎的东西并不对它们的胃口,但这并不能说明你的网站就不好,也许你需要做的只是另辟蹊径而已。