<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Tinyfool(郝培强)@Donews Blog</title>
	<atom:link href="http://blog.donews.com/tinyfool/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.donews.com/tinyfool</link>
	<description>思考的独立性就是我们存在的价值（一切文章都可以转载，但是必须保留作者签名（郝培强或者Tinyfool）和原文链接）</description>
	<lastBuildDate>Mon, 23 Feb 2009 06:08:00 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.4</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Google大牛Jeff Dean在WSDM（ACM的Web搜索和数据挖掘研讨会）2009上面的演讲</title>
		<link>http://blog.donews.com/tinyfool/archive/2009/02/23/1471220.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2009/02/23/1471220.aspx#comments</comments>
		<pubDate>Mon, 23 Feb 2009 06:08:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2009/02/23/1471220.aspx</guid>
		<description><![CDATA[<span style="font-size: 100%;">原文：</span><a title="external link" href="http://www.tinydust.net/prog/diary/2009/02/jeff-deanwsdmacmweb-2009.html">Google大牛Jeff Dean在WSDM（ACM的Web搜索和数据挖掘研讨会）2009上面的演讲</a>
<h3 class="post-title">      </h3>
<span style="font-size: 100%;">昨天看到好像是<a href="http://dbanotes.net/">大辉</a>共享的， <a href="http://glinden.blogspot.com/">Geeking with Greg</a>写的<a href="http://glinden.blogspot.com/2009/02/jeff-dean-keynote-at-wsdm-2009.html">Jeff Dean keynote at WSDM 2009</a>。现在J]]></description>
			<content:encoded><![CDATA[<p><span style="font-size: 100%;">原文：</span><a title="external link" href="http://www.tinydust.net/prog/diary/2009/02/jeff-deanwsdmacmweb-2009.html">Google大牛Jeff Dean在WSDM（ACM的Web搜索和数据挖掘研讨会）2009上面的演讲</a></p>
<h3 class="post-title">      </h3>
<p><span style="font-size: 100%;">昨天看到好像是<a href="http://dbanotes.net/">大辉</a>共享的， <a href="http://glinden.blogspot.com/">Geeking with Greg</a>写的<a href="http://glinden.blogspot.com/2009/02/jeff-dean-keynote-at-wsdm-2009.html">Jeff Dean keynote at WSDM 2009</a>。现在Jeff Dean的Keynote文件和视频貌似都还没公开放出来，所以我把Geeking with Greg的文章翻译如下，方便有兴趣的同学了解一下。Jeff Dean是何许人也呢？呵呵，他就是<a href="http://www.tinydust.net/prog/diary/2006/06/mapreduce-google.html">Google Mapreduce架构</a>的发明者，那篇尽人皆知论文的第一作者。WSDM又是何物呢？WSDM是美国计算机协会ACM组织的Web搜索和数据挖掘研讨会。Jeff Dean在WSDM2009上面演讲的题目是</span>Challenges in Building Large-Scale Information Retrieval Systems（构建大规模信息检索系统中的挑战），演讲介绍了Google从1999年到2009年，数据量，用户查询次数，以及相应架构的变化。</p>
<p>下面是简要译文：</p>
<p>Google Fellow Jeff Dean在最近的WEDM 2009会议上做了一个非常精彩的演讲，包含了一些我从来没有听说过的关于Google的轶闻。给我最深印象的是，这十年间Google对性能细节的关注，以及他们敏捷的开发模式。</p>
<p>Jeff 给出了从1999年到2009年Google如何成长的几个例子。他们现在拥有1千倍的查询次数。他们现在拥有1千倍的处理能力（机器数量乘以他们的速 度）。而且他们把更新的延迟降低了1万倍，送过去需要数月才能监测到一个Web页面的变化，到现在几分钟即可更新页面的搜索结果。</p>
<p>最后这 一点非常令人印象深刻。Google现在可以非常迅速地监测到很多Web页面的变化，计算这个页面的近似静态排名，并把索引的更新发布出去。对许多页面来 说，搜索结果可以在页面变化数分钟后更新。要做到这点需要解决几个困难的问题&#8211;重复抓取的频率和重要度，PageRank的快速近似计算，一个允许快速 更新索引的架构&#8211;看来这些问题他们都解决了。</p>
<p>他们的性能改进也令人惊讶，现在显示每个页面的时间是200ms以下。Jeff提到从几年前起，现在绝大多数的索引是完全保存在内存中的。也就是说现在每个查询不是由几十个机器，而是由上千个机器处理的，Jeff说这是值得的，这令每个搜索者可以立即就看到搜索结果。</p>
<p>Google 对细节的注意是可圈可点的。Jeff描述了他们这些年创造和使用过的几种索引压缩技术。他讲到他们如何最后决定了一种格式，4&times;3的位置信息有序地组合在 一起（By Tiny:原文是a format that grouped four delta of positions together in order，这句我不确定翻译的准确性，因为我没有看明白），这样就可以把压缩过程中需要的移位操作次数降到最低。Jeff说道，他们总是很注意他们的数 据在磁盘上的组织方式，把他们需要快速流读取的数据总是放置在硬盘的外圈，而冷门数据，或者短读取的数据放在磁盘的内圈。他们为没有校验的内存写自己的错 误恢复软件。他们写了自己的硬盘规划器。他们不断地修改Linux内核去满足他们的需求。我们先是设计自己的没有外壳的服务器，然后切换到现成的标准的服 务器，现在他们又转向设计自己的没有外壳的定制服务器了。</p>
<p>Google的敏捷同样令人难忘。Jeff说10年间，他们已经进行过7次主要 的架构升级。这些变化通常牵扯到完全不同的索引格式，或者全新的存储系统例如GFS和BigTable。在一些切换中，他们甚至做到了，在新的数据中心运 行着新的代码，旧的数据中心运行这旧的代码，并在这些数据中心间切换用户的访问。每天，搜索用户持续地接受用户体现方面细微的变化，测试新的代码。 Google的切换安静而快速，用户不会注意到任何变化。</p>
<p>原始的计算能力的地位已经摇摇欲坠了&#8211;现在可以用数千个机器为一个请求服务 &#8211;虽然这一切看起来那么不可思议。Jeff说，Google机器翻译模型翻译一个句子的时候，会对一个数T的模型进行上百万词的查找。他接着 说，Google的目标是不管你使用什么语言，让你可以读懂任何语言描述的任何信息。这需要的运算量难以计算，看起来这么巨大的运算量可能令所有其他人都 只能战战兢兢的呼喊Google（Tiny:原文The amount of processing required is difficult to fathom, yet it seems the kind of computational mountain that might cause others to falter calls out to Googlers.，说不好这句）。</p>
<p>&#8212;&#8212;云时代的分割线&#8212;&#8212;</p>
<p><span style="font-size: 100%;">Geeking with Greg还提到了，</span><a href="http://ciir.cs.umass.edu/%7Ebemike/">Michael Bendersky</a>听<a href="http://www.searchenginecaffe.com/2009/02/jeffrey-dean-wsdm-keynote-building.html">该演讲的笔记</a>，下面也大略翻译如下：</p>
<p><span style="font-weight: bold;">1999年到 &#8211; 2009年规模的变化</span></p>
<ul>
<li>100倍文档数</li>
<li>10000倍查询数（这里<span style="font-size: 100%;">Geeking with Greg和</span>Michael Bendersky的数据有出入）</li>
<li>更新速度快了1万倍</li>
<li>查询延迟从小于1秒到大于0.2秒，快了5倍</li>
</ul>
<p>10倍增长的时候设计的搜索引擎，100倍增长时重新了系统。然后，他粗略描述了从90年代后期开始抓取和索引发生的变化。下面是一些要点。</p>
<p><span style="font-weight: bold;">90年代后期</span></p>
<ul>
<li>批量抓取系统，抓到&ldquo;足够&rdquo;的页面后停止。</li>
<li>批量索引和Unix工具协同工作。减少了机器失效和数据不一致性。</li>
<li>原始的97索引格式就是简单的字节对齐的系统，包含编码的字段和词频信息。这需要大量的磁盘访问。</li>
</ul>
<p><span style="font-weight: bold;">之后不久</span></p>
<ul>
<li>迁移到新的基于块的变长索引格式，附带高频词跳表。这令索引尺寸小了30%，而且解码更快。</li>
<li>加入结果和文档摘要的缓存服务器。</li>
<li>2001年前期，他们迁移到一个内存索引架构，索引服务器（）可以直接和前端服务器沟通。</li>
<li>索引按文档分割而不是按词分割。</li>
</ul>
<p><span style="font-weight: bold;">最近和当前</span></p>
<ul>
<li>从头开始内部设计：机架设计，Pc级主板，Linux，内部软件（GFS，BigTable，等等）</li>
<li>用MapReduce架构来构建索引</li>
<li>2004年他们迁移到一个层级系统来处理索引，这个系统构建在基于GFS的索引之上（现在只有&ldquo;根级服务器&rdquo;处理来自Web服务器的请求）</li>
<li>快速索引更新</li>
<li>2007年他们加入超级根服务器，跟所有的垂直信息索引服务器通讯，构建全能搜索（Universal Search）服务。</li>
</ul>
<p><span style="font-weight: bold;">Google如何实验排序的改变</span><br /><span style="font-style: italic;">目标:</span> 要<span style="font-weight: bold;">易于</span>通过实验验证。</p>
<ol>
<li>从一个新的排名思想开始</li>
<li>用MapReduce，BigTable等快速生成实验所需数据</li>
<li>离线运行，并在（1）人工指定的不同类型的查询 （2） 在随机的查询，上看与现有排名算法的差异（不考虑延迟）</li>
<li>重复&hellip;</li>
<li>在一个小的随机的访问样本中实验（要考虑延迟！）</li>
<li>重新实现/调节实现，重新计算数据，要令计算全部数据的时间可行，并把所有需要的其他的数据加入到索引</li>
</ol>
<p><span style="font-weight: bold;">未来的挑战</span></p>
<ul>
<li>跨语言检索 &#8211; 质量和架构可伸缩性</li>
<li>检索隐私的，半公开的，共享的以及完全公开的文档</li>
<li>自动构建高效的满足不同需求的信息检索系统</li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2009/02/23/1471220.aspx/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>昨天见了阿里黑帮的思践</title>
		<link>http://blog.donews.com/tinyfool/archive/2009/01/15/1457680.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2009/01/15/1457680.aspx#comments</comments>
		<pubDate>Thu, 15 Jan 2009 04:02:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2009/01/15/1457680.aspx</guid>
		<description><![CDATA[<h1 class="post-title">       <a title="external link" href="http://www.tinydust.net/jsjy/sxl/2009/01/blog-post.html">原文请见：昨天见了阿里黑帮的思践</a>      </h1>]]></description>
			<content:encoded><![CDATA[<h1 class="post-title">       <a title="external link" href="http://www.tinydust.net/jsjy/sxl/2009/01/blog-post.html">原文请见：昨天见了阿里黑帮的思践</a>      </h1>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2009/01/15/1457680.aspx/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>如果杨致远没有作弊的话，谈Yahoo股东对与Google合作的看法</title>
		<link>http://blog.donews.com/tinyfool/archive/2008/08/06/1332918.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2008/08/06/1332918.aspx#comments</comments>
		<pubDate>Wed, 06 Aug 2008 03:41:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2008/08/06/1332918.aspx</guid>
		<description><![CDATA[       点击查看：如果杨致远没有作弊的话，谈Yahoo股东对与Google合作的看法      ]]></description>
			<content:encoded><![CDATA[<h3 class="post-title">       <a title="external link" href="http://www.tinydust.net/tinygoogle/2008/08/yahoogoogle.html">点击查看：如果杨致远没有作弊的话，谈Yahoo股东对与Google合作的看法</a>      </h3>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2008/08/06/1332918.aspx/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>从Google财报出发看Google的业务方向以及我对微软收购雅虎的看法</title>
		<link>http://blog.donews.com/tinyfool/archive/2008/06/30/1313489.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2008/06/30/1313489.aspx#comments</comments>
		<pubDate>Mon, 30 Jun 2008 15:14:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2008/06/30/1313489.aspx</guid>
		<description><![CDATA[       
点击查看全文
从Google财报出发看Google的业务方向以及我对微软收购雅虎的看法      ]]></description>
			<content:encoded><![CDATA[<h3 class="post-title">       </h3>
<h2 class="post-title"><a href="http://www.tinydust.net/tinygoogle/2008/06/googlegoogle.html">点击查看全文从Google财报出发看Google的业务方向以及我对微软收购雅虎的看法</a></h2>
<h1 class="post-title">      </h1>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2008/06/30/1313489.aspx/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>比起那两毛钱来说，我的时间更宝贵</title>
		<link>http://blog.donews.com/tinyfool/archive/2008/04/26/1283564.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2008/04/26/1283564.aspx#comments</comments>
		<pubDate>Sat, 26 Apr 2008 14:24:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2008/04/26/1283564.aspx</guid>
		<description><![CDATA[<a href="http://www.tinydust.net/jsjy/sxl/2008/04/blog-post_26.html">点击阅读：比起那两毛钱来说，我的时间更宝贵</a>]]></description>
			<content:encoded><![CDATA[<p><a href="http://www.tinydust.net/jsjy/sxl/2008/04/blog-post_26.html">点击阅读：比起那两毛钱来说，我的时间更宝贵</a></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2008/04/26/1283564.aspx/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>电影《解放军占领巴黎》很有意思</title>
		<link>http://blog.donews.com/tinyfool/archive/2008/04/25/1283288.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2008/04/25/1283288.aspx#comments</comments>
		<pubDate>Fri, 25 Apr 2008 14:39:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2008/04/25/1283288.aspx</guid>
		<description><![CDATA[点击查看全文：电影《解放军占领巴黎》很有意思]]></description>
			<content:encoded><![CDATA[<p><a href="http://www.tinydust.net/jsjy/sxl/2008/04/blog-post_24.html"><font size="5">点击查看全文：电影《解放军占领巴黎》很有意思</font></a></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2008/04/25/1283288.aspx/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[搜索引擎友好之路]搜索引擎优化常见问题与回答</title>
		<link>http://blog.donews.com/tinyfool/archive/2007/07/15/1186757.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2007/07/15/1186757.aspx#comments</comments>
		<pubDate>Sun, 15 Jul 2007 11:09:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2007/07/15/1186757.aspx</guid>
		<description><![CDATA[<h3 class="post-title">原文：<a title="external link" href="http://www.tinydust.net/prog/diary/2007/07/blog-post.html">[搜索引擎友好之路]搜索引擎优化常见问题与回答</a></h3>]]></description>
			<content:encoded><![CDATA[<h3 class="post-title">原文：<a title="external link" href="http://www.tinydust.net/prog/diary/2007/07/blog-post.html">[搜索引擎友好之路]搜索引擎优化常见问题与回答</a></h3>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2007/07/15/1186757.aspx/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>夜行记</title>
		<link>http://blog.donews.com/tinyfool/archive/2007/05/09/1162429.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2007/05/09/1162429.aspx#comments</comments>
		<pubDate>Wed, 09 May 2007 01:41:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2007/05/09/1162429.aspx</guid>
		<description><![CDATA[五一期间的一次夜行记录]]></description>
			<content:encoded><![CDATA[<p>[ccfbaf57]五一期间的一次<a href="http://www.tinydust.net/jsjy/sxl/2007/05/blog-post.html">夜行记录</a></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2007/05/09/1162429.aspx/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>2007-04-06流水账</title>
		<link>http://blog.donews.com/tinyfool/archive/2007/04/07/1151589.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2007/04/07/1151589.aspx#comments</comments>
		<pubDate>Sat, 07 Apr 2007 01:05:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2007/04/07/1151589.aspx</guid>
		<description><![CDATA[今天参加了<a href="http://www.tinydust.net/prog/diary/2007/04/csdn-2007.html">CSDN 2007英雄大会</a>，这个会很不错。可惜李开复博士没来，我本来<a href="http://www.tinydust.net/tinygoogle/2007/04/google.html">有三个问题想问李开复博士</a>的，很遗憾。<br /><br />不过这次第一次见到了<a href="http://www.we8log.com/">猛禽</a>的真人，不错很面嫩。<a href="http://www.dbanotes.net/">冯大辉</a>这次也来到了北京。还见到了神交久已的<a href="http://blog.donews.com/accesine/">田春峰</a>。所以还是很好的.]]></description>
			<content:encoded><![CDATA[<p>今天参加了<a href="http://www.tinydust.net/prog/diary/2007/04/csdn-2007.html">CSDN 2007英雄大会</a>，这个会很不错。可惜李开复博士没来，我本来<a href="http://www.tinydust.net/tinygoogle/2007/04/google.html">有三个问题想问李开复博士</a>的，很遗憾。</p>
<p>不过这次第一次见到了<a href="http://www.we8log.com/">猛禽</a>的真人，不错很面嫩。<a href="http://www.dbanotes.net/">冯大辉</a>这次也来到了北京。还见到了神交久已的<a href="http://blog.donews.com/accesine/">田春峰</a>。所以还是很好的.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2007/04/07/1151589.aspx/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>左拉：象一个男人一样去战斗［最牛钉子户］</title>
		<link>http://blog.donews.com/tinyfool/archive/2007/03/29/1146162.aspx</link>
		<comments>http://blog.donews.com/tinyfool/archive/2007/03/29/1146162.aspx#comments</comments>
		<pubDate>Thu, 29 Mar 2007 03:25:00 +0000</pubDate>
		<dc:creator>tinyfool</dc:creator>
				<category><![CDATA[未分类]]></category>

		<guid isPermaLink="false">http://blog.donews.com/tinyfool/archive/2007/03/29/1146162.aspx</guid>
		<description><![CDATA[全文见：左拉：象一个男人一样去战斗［最牛钉子户］]]></description>
			<content:encoded><![CDATA[<p>全文见：<a title="external link" href="http://www.tinydust.net/jsjy/sxl/2007/03/blog-post_29.html">左拉：象一个男人一样去战斗［最牛钉子户］</a></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.donews.com/tinyfool/archive/2007/03/29/1146162.aspx/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
