上接《
超链分析和PageRank的专利问题 留言简析(一)多图》(链接)
malefactor 发表于2006-05-08 1:48 PM IP: 159.226.5.*
大致比较了一下两个方法,其实ROBIN LI的方法和PAGERANK是完全不同的算法,ROBIN LI的方法是所谓的"虚拟文档"的方法,就是把所有指向某个页面的链接"锚文字"来代替网页的内容,并以此计算和查询的相似性,说实话,在当时来说,这个也是比较有新意的算法,但是和PAGERANK思路是完全不同的,PAGERANK并非计算查询和页面的相似性的,而是计算页面重要性的算法;
IT静夜思 发表于2006-05-08 1:37 PM IP: 211.100.33.*
TrackBack来自《
“超链分析”和“PageRank”专利的分析比较》:
keso在他的blog里面提到了baidu和google的专利问题。刚才我把两个专利的文档都打开看了,并且比较分析了一下。下面我从专业的角度来讨论一下这个问题:
1. 网上争论的焦点是“超链分析”和...
A Pseudo SE Expert 发表于2006-05-09 1:28 PM IP: 162.105.81.*
关于两个专利的关系:因为我很早就比较过这两个专利,所以冒昧指点一下迷津:
一句话,Y Li 专利的目的是解决"anchor text indexing" 问题, 而 L Page 提出的是一个与文本内容无关、完全基于超链接关系的 global doc ranking technique.
有一个问题关键在于:在1997年的时候,"anchor text indexing" 已经不是一个全新的idea, 早在1994年就已经有人使用并且在 WWW'94 会议上发表(used by the WWWW Worm)。因此 Y Li 专利的新颖性是存疑的。
无论如何,这两个技术都是当前任何一个 Web search engine 都必须使用的基础性技术。由于难以获得“专利侵权判据”,没有人会担心因为使用这些技术而被告侵权,只是他们不会说自己使用了它们。例如,没有人敢说自己使用了 PageRank (除了Google, of course),但是可以说是用了某种 link analysis technique...
vincent wu 发表于2006-05-08 3:17 PM IP: 158.182.8.*
我有心把“超链”比作月亮,因为它照亮了搜索界发展的进程;但现在看来它却是搜索界的潘多拉魔盒,keso被传染也中了招,一打开就惹来争论不断,而他自己给《一种大规模超文本Web搜索引擎的分析》加的“超链”也错了----最好更正一下---免得大家误以为这篇横空之作是子虚乌有。
至于这场百度谷歌专利的争论,在我看来,其实不关先后、仅仅是天资和功力的区别。
我先将李彦宏的专利摘要大致翻译一下:
Hypertext document retrieval system and method
超文本文档提取系统和方法
A search engine for retrieving documents pertinent to a query indexes documents in accordance with hyperlinks pointing to those documents. The indexer traverses the hypertext database and finds hypertext information including the address of the document the hyperlinks point to and
the anchor text of each hyperlink. The information is stored in an inverted index file, which may also be used to calculate document link vectors for each hyperlink pointing to a particular document. When a query is entered, the search engine finds all document vectors for documents having the query terms in their anchor text. A query vector is also calculated, and the dot product of the query vector and each document link vector is calculated. The dot products relating to a particular document are summed to determine the relevance ranking for each document.
一个用于提取与查询项相关文档的搜索引擎。该搜索引擎根据指向文档的超链,对这些文档进行索引。该索引编制器(indexer)扫描超文本数据库,寻找包括超链所指文档的地址、超链的锚文字等超文本信息。将这些信息存储在反向(inverted)的索引文件里,该文件还可用于计算文档连接向量 (document link vector),以针对每一指向某文档的超链。当用户输入一个查询项,该搜索引擎找到的所有文档向量,其“锚”文字包含该查询项。并计算一个查询向量(query vector), 然后计算该查询向量和每一文档连接向量之间的内积。将与某文档相关的内积进行累加,以决定该文档的相关度排序。
----------
而keso所找到的sergy和page专利里的《简介和总结》部分我也大致翻译如下:
当查询项与非常多的文档匹配时,目前的网络搜索引擎产生非常差的(排序)结果。但是用户常常送出这样的简单查询项。针对这样的查询,描述在此的系统能产生令人惊奇的结果提升,关键在于使用来自存储网络连接(web link)的大数据库内可用的附加信息。该网络引用(web citation)数据库用于决定每一网页的引用重要程度,据此再对查询结果排序。该系统业已实现,并能产生杰出的结果,哪怕是相对来讲只包含400万网页的小数据库。该系统不仅产生更佳的结果,更显著地减少计算代价,而计算代价却是网络搜索引擎最大的开销。要展示改善的结果,只需挑一个简单的查询项,比如“天气”,然后将我们系统的结果和传统网络搜索引擎的结果(像altavista)比较。
-------------------
根据我所了解的page-rank模型,和刚刚所看到的李的专利所述模型,两相比较,我只能说李能想到并妥善利用超链,表现的功力已远非平常人。因为那个时候做信息提取研究的研究者,恐怕都已经意识到要利用到诸如超链和锚文字等附加信息,而问题关键是谁能有功力利用得漂亮。可是在这个层面,裴吉 (page)的page-rank模型,凭借极其深厚的理论支撑和显著的优势,让google鹤立鸡群,而李的方法,只能说是未蜕变成鹤、丑过page- rank的丑小鸭。
李的想法是否启蒙后人,是否也启发过page,可能是件无头悬案。但先后之争,在我看来没什么意义,以他们作为研究者的身份,谁知道他们受了哪些前人的影响呢?而
“今人不见古时月,今月曾经照古人”,“超链”这东西,也如同月亮,罩过不少人,但谁也不必太过信誓旦旦说成是属于自己。关键是谁在月光的眷顾下,练就了最强的神功。
chenmi 发表于2006-05-08 11:22 AM IP: 60.176.95.*
随着网络或者说国人对法律意识越来越重视的情况下,专利以及版权这样的概念慢慢的成为了流行的名词。对于这个已经使用了多年的技术,现在去翻历史查证是到底哪里处了错?这样做只能用来……,呵呵,省略中间的一段议论。
对于超链分析和PR的专利问题,其实我们并不在意,谁在用这个技术也不重要;对用户来说,这个技术最终的实现结果才是最重要的,无论怎么说Google对这个技术的应用让我们了解了这个技术,百度的表现却不明显。
u 发表于2006-05-08 11:50 AM IP: 203.211.94.*
keso我经常看你的blog,从个人角度上来将,我不是很喜欢你,因为从你的文字中,总是能察觉到你贬低自己国家的痕迹,但是无论如何,这个没关系,下面我说说你发这个文章这个事情。
我看了你这个文章后花了30分钟,在网上找了资料,大致是这样:
首先:根据Wayback Machine,在1998年2月7日,这个连接:(http://web.archive.org/web/19980207005953/http: //backrub.stanford.edu/)中,BackRub中没有提及任何PageRank的资料,实际上我看到的,从文字上可以感觉到 BackRub自己认为自己是一个Web Crawler。
然后:到了1998年10月,请注意,这个时间是在1998年4月之后,BackRub正式使用了Google的域名:(http: //web.archive.org/web/19981206025554/http://backrub.stanford.edu/),从此 BackRub就没有再更新过。
为了继续调查,我看了Google.com的历史纪录,在这里(http://web.archive.org/web/*/http: //www.google.com),可以看到第一个纪录是1998年10月,这个(http: //web.archive.org/web/19981202230410/http://www.google.com/),其中首次出现了 PageRank这个字眼,在这个页面(http: //web.archive.org/web/20000301130432/www.google.com/adv_features.html)。
总结一下,大致是这样:
1997年2月 Li Hongyan 提交了类似PageRank的专利申请,1998年4月Li Hongyan 于澳大利亚演讲,其中在座听讲的有Larry Page和Sergey Brin,同时他们已经有了类似PageRank的论文(但是这个时候已经距Li Hongyan提交专利申请1年了),1998年10月Google上线,正式使用PageRank这个字眼,但是Patent Pending,1999年7月Li Hongyan的专利获得批准,2001年9月Google专利获得批准。
以上文字如果有错误,也很正常,因为我才花了30分钟的时间。
美国专利和商标局,毕竟是美国人的机构,2001年时偏袒一下当时已经很厉害的Google,这个无话可说。
我从来不用Baidu,但是,作为技术认为,我知道要维护一个Baidu这样的搜索引擎绝对不是一件容易的事情,虽然Baidu严格上来说是一个美国的上市公司,但是这个毕竟是我们华人开发出来的产品,哎,你们这群人啊,嘿嘿,嘿嘿。
小飞 发表于2006-05-08 2:02 PM IP: 61.135.146.*
to malefactor:
你应该仔细读一读Robin Li的专利描述,你所说的“ROBIN LI的方法是所谓的"虚拟文档"的方法,就是把所有指向某个页面的链接"锚文字"来代替网页的内容,并以此计算和查询的相似性”,完全是误读!
小飞 发表于2006-05-08 2:57 PM IP: 61.135.146.*
to malefactor:
我觉得你没理解超链分析的本质,超链分析最重要的思想,不是“把所有指向某个页面的链接"锚文字"来代替网页的内容”,而是“根据页面被其他页面链接的次数和链接中的内容,来计算页面与关键词的相关度”
pagerank的核心思想,和超链分析的区别并不大。
明心见性 发表于2006-05-08 12:50 PM IP: 220.207.72.*
u的评论很客观,我补充一点。对于百度是否是中国公司这个问题,最近不少人讨论,有人经过分析百度股权结构,认为外资所拥有股份超过百度总股份的50%,因此百度不是中国公司。
这个观点是完全错误的。
判断一个公司是哪里的公司,要看该公司的决策权掌握在哪些人手里。中国现在有不少在美国上市的公司,但只要其决策权掌握在中国人手中,就是中国公司。
百度在上市的时候,推出了一个“牛卡”计划,“这一股权设计计划称作“不同表决权股份结构”(DualClassStructure)。其方法为,将上市后的百度股份分为A类(Class A)、B类(Class B)股票。将在美国股市新发行股票称作A类股票,在表决权中,每股为1票,而创始人股份为B类股票,其表决权为每1股为10票。而在赴美上市的中国公司中,采用这一股权设置计划的,百度是第一家,也是目前唯一的一家。”
因此,尽管外资所占股份总额超过50%,但并不代表其拥有超过半数的表决权,也就意味着并不拥有对百度的决策权。
那百度创始人股份又主要集中在谁手里?通过分析百度股权结构我们可以看到,主要是集中在李彦宏、徐勇、其他百度其他高管以及部分百度员工手里,一些早期的风险投资也拥有部分创始人股份,但在百度上市后,逐渐卖出获利,而这些股份卖出后,即变成每股1票的A类股票。
因此,百度的决策权牢牢掌控在中国人手中,他是一家在美国上市的中国公司。
顺便说一句,曾有人对李彦宏的身份提出质疑,说其是美国人,纯粹是胡说八道。李彦宏是地地道道的中国人。不仅如此,为了做好百度,他不愿长时间离开中国,前几年把早年在美国获得的长期居住证(绿卡)都已注销。
e频 发表于2006-05-08 1:53 PM IP: 61.168.90.*
to xpilot:
2002年封Google事件,应该更全面的看这个问题。
如今被封网站越来越多,个中原因我们都能明白一些。
可以想想为什么联合早报相对其它国外新闻网站封的次数少些,原因很简单,联合早报的内容不是很敏感。你认为ZF能让当时能搜出那么敏感内容的google活下去么?
我不替baidu说话。只是我们在这里,就只能接受这样的安排。我不相信baidu有那么大能量。我只相信我们的ZF。
E.Y. 发表于2006-05-08 7:24 PM IP: 59.61.2.*
“我们若能更妥善地搜寻资料,实在已经改变世界。”其实也是GOOGLE创始人说的.俞军最早是个大G FANS,把这句话到处引用,以致现在中文一查,出处都是他.李彦宏有一段时间也老用这句话,公关稿,演讲稿...,当然都是不屑注明出处的了.疑惑,这句话就那么好嘛,他们就非想不出自己的CATCH LINE?但是最早他们是很自觉地把自己摆在G的位置下面的,对G是仰视的,所以处处引用G的话大概是觉得光荣的吧.
KESO提出的这个问题,正是我觉得李彦宏最无耻的一个说法.当时记得他们的提法是G的两创始人在澳洲聆听李的演讲,会后李还解答了他们的问题等等.G当时根本没把中国市场看在眼里,所以李彦宏敢这么黑白讲.现在看他还敢不敢这样讲了.当然,他当时混淆视听的目的也已经达到大半了.
至于KESO在这篇文章中所用的口气,我认为是十分公正的.KESO是IT圈中少有的正直的人之一,所以才对G的脾气.李彦宏最早的时候,为了发展,使用过一些卑鄙手段,说过些卑劣的话,但是也不一定就是小人,小人有更小人的手段,李只能说是个普通人.如果李一早摆出正人君子有所为有所不为的架势,那么百度肯定不会有今天了.牺牲一个君子的虚名,成全了一个百度,才是商人气概.
G呢,是天生的正人君子.可是在中国是会水土不服的.
youarefool 发表于2006-05-08 2:02 PM IP: 202.109.75.*
我觉得kose纯属脑子进水型,不知道百度是否挡住了你迈向美国自由世界的脚步?犯得着这样跟百度死磕?还来试图揭人家百度创始人的老底,呵呵,太幼稚了, 拿Robin Li来查,您对美国和互联网技术的了解也真是肤浅的可笑吧.首先,您先去进修一下外语,然后再进个大学补一下关于互联网和搜索引擎方面的课,再跳出来献丑可以吗?
google不知道给了你多少钱,你这么免费做爪牙有被李开复欣赏吗?还是准备骂了李彦宏然后,占山为王等招安?就看您的表现呢,估计老李开个差不多的价钱你就屁颠屁颠地过去了,大概你就等的这一天吧,不然真很难解释你的动机呢.
说实话,你再跳脚再激动,没有用处,百度不是靠你这样的人物就可以做到今天的地步的.是靠自身的实力,如果怀疑百度曾经干了什么事情,你可以拿出证据来.退一万步说,我觉得就是干了,又怎么样?中海油不是被美国政府以国家安全的名义狙击了吗?中国为什么不能阻止google进入?
似乎现在骂党骂国已经成了时尚.百度可怜,因为貌似与此有关,就成了IT届被攻击的对象.QQ可怜,因为本土,因为"下等网民"用得多,就成了" 精英人士"鄙弃的对象.联想可怜,因为生在中国,即使收购了IBM也被讥笑为画虎不成反类犬.只要你是个中国人,只要你在中国做了点胆敢跟跨国公司挑战的事情,你就绝对成了笑柄和被辱骂的对象?为什么?因为你技术差!因为你在中国的统治下,因为你是黄颜色!
但是骂人的这位keso,你既然这么讨厌自己出生在这个国家,为什么不学杰克逊一样去漂白,去整容?或者投奔自由世界?为什么只会在这里口吐怨言,自己整自己?中国真的不缺你这样的人,缺的是有自尊的中国人.技术粗糙,有时间可以跟上,心没有方向,那才是最大的悲哀.国内这帮技术人员,你们为什么不自己创造一个百度或者QQ,跟跨国企业竞争?那时候,你再来说鄙弃别人的话可以吗?
说实话,百度是什么,外资还是中资,发明技术在前还是在后,一点不重要.重要的是,百度之所以成为百度,不管有没有原罪,不管如何,它正在努力成为一个最好的公司.而且,我觉得百度,完全可以不必要理会一帮各怀鬼胎的宵小们的言语,木秀于林大风催,呵呵.但不是你几句话就能吹倒的,越磨练越成器. 百度,QQ,联想,都是如此.
yourarefool 发表于2006-05-08 3:28 PM IP: 202.109.75.*
那是因为,豆瓣还没有强大到和google一拼的能耐,Keso完全可以不用理会.一旦哪天豆瓣不幸崛起,而且也正好是goole或者flickr光荣当机的时候,豆瓣估计也惨了.
什么叫百度的屁股摸不得,google的屁股一样也摸不得.有人敢说一句google的不好看看,早被蛰成马蜂窝了.现在百度和google之争,完全上升到了政治和意识形态之争.我觉得为百度不值.不过一个有志气的中国人想干点事情,却背负了太多的附加价值.而喜欢攻击百度的人,大多数是"技术精英"(姑且算是精英吧,简称技精),大多数是不满而无处发泄的中下层人员,躁动不安又无可安置自己无前途的心,于是,恨铁不成钢地自卑,骂骂百度,立个名头,显示自我.也实在是让人不齿的心态.
说实话,Keso挑这个事情也挺无聊挺下作,都多少年前的事情了,议论来议论去,好象你的论据也站不住脚,不是有造谣的嫌疑吗?
ffish 发表于2006-05-08 3:00 PM IP: 222.90.144.*
百度的屁股摸不得,这个说法再次得到了证实。
既然百度官方页面上http://www.baidu.com/about/en/management.html明白的写出了Robin Li (CEO)和Robin Li (Co-founder and Chief Executive Officer)字样,并且没有Li Yanhong字样,不知道keso用Robin Li来查专利有什么可笑的。
国内有些公司的所作所为,真的仅因为是“中国制造”,就要被大家不分青红皂白的爱和捧吗?作为google的fans,看不惯baidu的很多做法,是多正常的事情,还用列举些例子来说明为什么有人不喜欢baidu吗?
动不动上升到汉奸的高度,也太夸张了吧。那个写英语的家伙,你在国外倒是可以眼不见心不烦。keso力捧过国产“豆瓣”,你不妨给些证据显示你的爱国心。
一一 发表于2006-05-08 10:03 PM IP: 220.205.0.*
实际上,深层次和潜意识内,这是个文化和意识形态之争。
在中国的市场条件下,可能拿不出一家干净的公司,这个无法苛求。美国花几百年时间造就的市场环境和竞争条件,中国猝急间不可能达到,恐怕还要数十年的漫长。
如果你生在资本主义原始积累期的美国,大概你就会觉得中国公司所谓“不正当竞争”手段的软弱和苍白,所谓无耻只能是小巫见大巫。
只是觉得国内技术界的短视和浮躁。拼命指责甚至挑拨辱骂,解决不了问题。百度有胸怀,可以从竞争和对手指责中改善成长,也算不了什么。但请批评者保持,善意和宽容。极端民族主义的确让人烦,但没有这点民族自尊心的话,也许未来没有一家公司是中国制造,更别谈中国创造了,呵呵。
也许创新是技术发展的灵魂,但皮之不存,毛将焉附?世界上本来就有多种发展途径,有google那样的cool brand,超前地进行用户体验,让人觉得酷而新奇,永远让人惊喜。也有百度这样的,以最大多数用户体验为基础的缓慢的养成和培育。创新不是横空出世,而是在旧有的体验上进行改造,综合与优化是最好的创新,从这个意义上来说,百度贴吧、知道等都是非常好的创新产品。
至于抄袭,本来都是搞同质竞争,如此相同的行业,想要苛求完全不同的产品,大概也是做梦。本来是两个公司之间的口水战,关键还是核心技术,这个是抄袭不来的。
至于技术,百度擅长的是中文搜索,从来也没有说要在英文搜索上跟google比较。说实话,百度的英文搜索和google的中文搜索一样烂。各有所长,百度又没有非要进军英语市场,google可是把手脚伸向中国,这可是田忌赛马了,高下立判。请各取所好,你想查阅英文或技术资料,请 google,你想查阅中文信息和娱乐信息,请百度一下,没有人非要让舍此而取他呀?
说到个人品德什么的,这个扯太远了,没有证据的事情请都不要瞎猜。说百度阴google,觉得百度可能是吃了个哑巴亏。这种事情,绝对是,解释也是屎,不解释也是屎,以Robin Li的口才,说上三天还不如马云出来说半个小时。呵呵。谁又知道这是不是对手嫁祸百度的阴招?谷歌这次闹这么个大笑话,也没见百度落井下石,讥笑不已吧?保持对对手的尊重,是有度量的公司的起码条件,这一点似乎被有些人忘却了。
google是个让人喜欢的对手,这并不意味着,所有的GFANS也都如此。百度一直被妖魔化,让人纳闷。很多搞技术的骂起来简直不分青红皂白,坚持仇恨百度,似乎百度是什么的代名词,这真的是有些可怕了。不知道是仇富还是恨铁不成钢还是别的?理性地对待这两个公司的竞争,多点善意,多点宽容,也许是鸡饭和肚丝们最好的态度了,也真的该让人,清净清净了。
本来想以上面这段留言作为这篇帖子的结尾。但是后来我发现了更适合作结尾的留言。它来自月光博客的这篇帖子《
再谈百度和Google的问题》(链接)。请大家链过去看吧......