Tinyfool(郝培强)@Donews Blog

思考的独立性就是我们存在的价值(一切文章都可以转载,但是必须保留作者签名(郝培强或者Tinyfool)和原文链接)

  DonewsBlog  |  Donews首页  |  Donews社区  |  Donews邮箱  |  我的首页  |  联系作者  |  聚合   |  登录
  219篇文章 :: 0篇收藏:: 2439篇评论:: 163个Trackbacks

公告

银杏泰克科技有限公司[站内搜索解决方案]

全能之眼

Google Maps API同步文档

codechina代码中国论坛

微尘程序员网站

[人肉搜索]人肉搜索引擎是不是就是搜索引擎的未来?

tinyfool的新头像

全能之眼热门地点

文章

收藏

相册

0-我的网站和Blog

1-文章精选

2-Tiny关注的Blogger

3-朋友

4-支持

存档


正在读取评论……


2009年02月23日

原文:Google大牛Jeff Dean在WSDM(ACM的Web搜索和数据挖掘研讨会)2009上面的演讲

昨天看到好像是大辉共享的, Geeking with Greg写的Jeff Dean keynote at WSDM 2009。现在Jeff Dean的Keynote文件和视频貌似都还没公开放出来,所以我把Geeking with Greg的文章翻译如下,方便有兴趣的同学了解一下。Jeff Dean是何许人也呢?呵呵,他就是Google Mapreduce架构的发明者,那篇尽人皆知论文的第一作者。WSDM又是何物呢?WSDM是美国计算机协会ACM组织的Web搜索和数据挖掘研讨会。Jeff Dean在WSDM2009上面演讲的题目是Challenges in Building Large-Scale Information Retrieval Systems(构建大规模信息检索系统中的挑战),演讲介绍了Google从1999年到2009年,数据量,用户查询次数,以及相应架构的变化。

下面是简要译文:

Google Fellow Jeff Dean在最近的WEDM 2009会议上做了一个非常精彩的演讲,包含了一些我从来没有听说过的关于Google的轶闻。给我最深印象的是,这十年间Google对性能细节的关注,以及他们敏捷的开发模式。

Jeff 给出了从1999年到2009年Google如何成长的几个例子。他们现在拥有1千倍的查询次数。他们现在拥有1千倍的处理能力(机器数量乘以他们的速 度)。而且他们把更新的延迟降低了1万倍,送过去需要数月才能监测到一个Web页面的变化,到现在几分钟即可更新页面的搜索结果。

最后这 一点非常令人印象深刻。Google现在可以非常迅速地监测到很多Web页面的变化,计算这个页面的近似静态排名,并把索引的更新发布出去。对许多页面来 说,搜索结果可以在页面变化数分钟后更新。要做到这点需要解决几个困难的问题--重复抓取的频率和重要度,PageRank的快速近似计算,一个允许快速 更新索引的架构--看来这些问题他们都解决了。

他们的性能改进也令人惊讶,现在显示每个页面的时间是200ms以下。Jeff提到从几年前起,现在绝大多数的索引是完全保存在内存中的。也就是说现在每个查询不是由几十个机器,而是由上千个机器处理的,Jeff说这是值得的,这令每个搜索者可以立即就看到搜索结果。

Google 对细节的注意是可圈可点的。Jeff描述了他们这些年创造和使用过的几种索引压缩技术。他讲到他们如何最后决定了一种格式,4×3的位置信息有序地组合在 一起(By Tiny:原文是a format that grouped four delta of positions together in order,这句我不确定翻译的准确性,因为我没有看明白),这样就可以把压缩过程中需要的移位操作次数降到最低。Jeff说道,他们总是很注意他们的数 据在磁盘上的组织方式,把他们需要快速流读取的数据总是放置在硬盘的外圈,而冷门数据,或者短读取的数据放在磁盘的内圈。他们为没有校验的内存写自己的错 误恢复软件。他们写了自己的硬盘规划器。他们不断地修改Linux内核去满足他们的需求。我们先是设计自己的没有外壳的服务器,然后切换到现成的标准的服 务器,现在他们又转向设计自己的没有外壳的定制服务器了。

Google的敏捷同样令人难忘。Jeff说10年间,他们已经进行过7次主要 的架构升级。这些变化通常牵扯到完全不同的索引格式,或者全新的存储系统例如GFS和BigTable。在一些切换中,他们甚至做到了,在新的数据中心运 行着新的代码,旧的数据中心运行这旧的代码,并在这些数据中心间切换用户的访问。每天,搜索用户持续地接受用户体现方面细微的变化,测试新的代码。 Google的切换安静而快速,用户不会注意到任何变化。

原始的计算能力的地位已经摇摇欲坠了--现在可以用数千个机器为一个请求服务 --虽然这一切看起来那么不可思议。Jeff说,Google机器翻译模型翻译一个句子的时候,会对一个数T的模型进行上百万词的查找。他接着 说,Google的目标是不管你使用什么语言,让你可以读懂任何语言描述的任何信息。这需要的运算量难以计算,看起来这么巨大的运算量可能令所有其他人都 只能战战兢兢的呼喊Google(Tiny:原文The amount of processing required is difficult to fathom, yet it seems the kind of computational mountain that might cause others to falter calls out to Googlers.,说不好这句)。

------云时代的分割线------

Geeking with Greg还提到了,Michael Bendersky该演讲的笔记,下面也大略翻译如下:

1999年到 - 2009年规模的变化
  • 100倍文档数
  • 10000倍查询数(这里Geeking with Greg和Michael Bendersky的数据有出入)
  • 更新速度快了1万倍
  • 查询延迟从小于1秒到大于0.2秒,快了5倍
10倍增长的时候设计的搜索引擎,100倍增长时重新了系统。然后,他粗略描述了从90年代后期开始抓取和索引发生的变化。下面是一些要点。

90年代后期
  • 批量抓取系统,抓到“足够”的页面后停止。
  • 批量索引和Unix工具协同工作。减少了机器失效和数据不一致性。
  • 原始的97索引格式就是简单的字节对齐的系统,包含编码的字段和词频信息。这需要大量的磁盘访问。
之后不久
  • 迁移到新的基于块的变长索引格式,附带高频词跳表。这令索引尺寸小了30%,而且解码更快。
  • 加入结果和文档摘要的缓存服务器。
  • 2001年前期,他们迁移到一个内存索引架构,索引服务器()可以直接和前端服务器沟通。
  • 索引按文档分割而不是按词分割。
最近和当前
  • 从头开始内部设计:机架设计,Pc级主板,Linux,内部软件(GFS,BigTable,等等)
  • 用MapReduce架构来构建索引
  • 2004年他们迁移到一个层级系统来处理索引,这个系统构建在基于GFS的索引之上(现在只有“根级服务器”处理来自Web服务器的请求)
  • 快速索引更新
  • 2007年他们加入超级根服务器,跟所有的垂直信息索引服务器通讯,构建全能搜索(Universal Search)服务。
Google如何实验排序的改变
目标:易于通过实验验证。

  1. 从一个新的排名思想开始
  2. 用MapReduce,BigTable等快速生成实验所需数据
  3. 离线运行,并在(1)人工指定的不同类型的查询 (2) 在随机的查询,上看与现有排名算法的差异(不考虑延迟)
  4. 重复…
  5. 在一个小的随机的访问样本中实验(要考虑延迟!)
  6. 重新实现/调节实现,重新计算数据,要令计算全部数据的时间可行,并把所有需要的其他的数据加入到索引
未来的挑战
  • 跨语言检索 - 质量和架构可伸缩性
  • 检索隐私的,半公开的,共享的以及完全公开的文档
  • 自动构建高效的满足不同需求的信息检索系统


2009年01月15日


    摘要:

原文请见:昨天见了阿里黑帮的思践

    (全文共149字)——点击此处阅读全文


2008年08月06日

点击查看:如果杨致远没有作弊的话,谈Yahoo股东对与Google合作的看法



2008年06月30日

点击查看全文从Google财报出发看Google的业务方向以及我对微软收购雅虎的看法



2008年04月26日

点击阅读:比起那两毛钱来说,我的时间更宝贵


2008年04月25日

点击查看全文:电影《解放军占领巴黎》很有意思


2007年07月15日

原文:[搜索引擎友好之路]搜索引擎优化常见问题与回答



2007年05月09日

[ccfbaf57]五一期间的一次夜行记录


2007年04月07日

今天参加了CSDN 2007英雄大会,这个会很不错。可惜李开复博士没来,我本来有三个问题想问李开复博士的,很遗憾。

不过这次第一次见到了猛禽的真人,不错很面嫩。冯大辉这次也来到了北京。还见到了神交久已的田春峰。所以还是很好的.


2007年03月29日

全文见:左拉:象一个男人一样去战斗[最牛钉子户]


2007年03月05日

全文见:移民才是最大的爱国



2007年02月25日

一夕成功,语无伦次



2007年01月01日

Google Talk在我心中一直是近乎完美的,但是也有些不太如意的地方,比如好友无法排序,没有Mac和linux版本等等。但是我一直不知道怎么告诉他们我的想法。

现在好了,Google Talk 又发起新的一轮功能需求投票

你希望Google Talk增加什么功能?来告诉Google吧!

信息来自:Google Talk 功能需求投票


2006年12月16日

昨天,偶尔发现一个新的搜索引擎,叫做有道,名不见经传,也许是刚刚出现的吧。

我搜索了下,似乎只有无聊木棉的Blog聊过这个东西,据说有道是网易的新产品。具体内幕我不了解,就不赘述了。

为什么我觉得这个有道有点门道呢?

那是因为它的Blog搜索,有一个不同与其他Blog搜索引擎(blogsearch.google.com / blogsearch.baidu.com)的功能,那就是Blogger档案功能。

下面是本Blog(Tinyfool@donews)在有道中的档案

有道中tinyfool@donews的档案

通过对Blog历史文章的整理和发掘,有道可以知道Blogger的发文频率(活跃度),习惯的发文时刻(出没规律),习惯的发文日期(工作休闲和Blog的关系),文章的长度(唐僧指数,哈哈)。有道还根据这些数据机器生成一个对Blogger的评语(这就是娱乐功能了,评得蛮搞笑的)。

下面是对我的评语:
当太阳刚刚升起,当花草树木刚刚苏醒,当清洁工刚刚扫完林荫道的石板路面,当大多数人正在如织的车流中前行……当说了这么多当的时候,博主已经在电脑前写 完又一篇博客文章。他(她)要么常常早早赶来办公室,要么就是还没睡——写完就去睡了。要是去年,博主就是著名的网络写手了。可惜现在人人皆博,这算不得 什么厉害啦。人称每周一歌的就是博主了,其实适当的距离反而更有新鲜感。


下面是对著名的夜行动物Keso的评语:
伟大的企业家杰克•韦尔奇在书中提到,要注意工作与生活的平衡,只有这样员工才能发挥更高的效率。如果你 是博主的领导,请不要因此苛责他(她)。如果你是博主的同事或者朋友,请不要转给他(她)的领导看——毕竟,杰克•韦尔奇只有一个。要是去年,博主就是著 名的网络写手了。可惜现在人人皆博,这算不得什么厉害啦。虽然只是隔三差五的发表博客,但在彷佛不经意的遥控器换台中,却总能看到博主的近日行踪。

有点意思吧。


2006年11月17日

The following is a paid review: 这是一篇付费的评论文章:

ReviewMe 是不久前刚刚正式发布(11月9日)的Blog广告系统 ,然而如果你在Google BlogSearch搜索,你会发现已经有2000多篇Blog讨论ReviewMe了。尤其值得关注的在于,这其中包括52篇简体中文的Blog。就我的订阅列表而言,已经有herock zuola Shunz kdolphin Royal月光和菜头吕欣欣 等多位知名Blogger进行了评论。

这简直就像伴随气温骤降悄然来袭的流行感冒,我想不关注都不行了。

为什么会有那么多人讨论ReviewMe呢?因为评论ReviewMe可以给你带来收入,这是一场金钱推动的流行。

ReviewMe的模式简而言之就是,对Blog进行评估,定出每篇评论的价格,然后提供一个可供评论的产品列表,让Blogger选择评论那些产品,每篇经过确认的评论都可以带来收入。这看起来与传统的软文写作颇有点类似,然而区别还是很大的。首先,每篇文章必须注明这是付费的评论,其次并不强制要求评论必须是正面的。

在这个注意力稀缺的年代,没有新闻就是最坏的新闻。而ReviewMe的模式可以让你在一个设计好的引爆时间点,聚集大量的讨论,从而引爆一场新的流行。