2012年09月04日

文/DoNews资深作家 郝培强

原文地址: http://tiny4cocoa.com/home/s/1/

本来准备写一个非常详尽的答案,但是查了查资料发现想全部表达,简直可以写一本微型计算机简史了,于是TODO里面加上写本《微型计算机简史-果粉观点》,感谢刘韧大哥的激发。我先做一个简单回答。

1、IBM是PC的发起者,但是PC行业的实际领导者是微软。Gates当年有一个巨大无比的Vision,叫做人人桌面上有个电脑,现在已经实现。我觉得以Gates的想象力,已经没有Vision了,所以行业停滞不前。

很多人以Gates为神,但是我认为微软是一个Vision有限,市场份额为王的公司,这样的公司适合守业,不适合开拓。举例说明,Netscape最早做浏览器的时候,微软不为所动,但是大火后,微软成功超过。再有一个很好玩的例子是,Jobs被赶走后,10来年,几乎每年Mac都升级大版本,我认为苹果是有产品文化的,不是市场份额动物。而微软在IE6独揽天下以后,不再更新,甚至解散开发团队达到三年之久,直到Firefox达到将近10%市场份额的时候,才重新组建IE团队。这充分说明微软是市场份额动物。

2、一般人从Jobs第二次回到苹果开始了解Jobs,认识多有偏颇。不知道他当年创建的苹果,是个人电脑行业的真正发端(使这个行业形成,而不说是第一台),不知道当年Apple II有多么普及。也不知道Mac在1985年的体验,跟1995年PC上的Windows都可以说更好一些。一般世人诟病Jobs的Mac也抄袭自施乐实验室。但是我愿意把Jobs比作盗火者,他把科学家的玩物带给了世人。如果你看过1984年的Mac和1985年的windows 1你就明白Jobs说微软一直在向他学习是什么意思了。实际上微软在1995年才跟上了1985年的Mac。

(本来有图片为证,不过目前再donews这边权限不够贴不出来)

3、Jobs离开苹果创建的NeXT一直被业界低估,但是你仔细研究历史就会发现,WWW的创始人Tim Berners-Lee发明WWW就是在NeXT上。很多人可能会以为这是一个巧合,我以前也不会特别把这个当作一个要点。但是当对Cocoa也就是目前iOS的开发框架了解后,我才知道它来自于NeXT当时做的面向对象UI库,NeXTSTEP,这个东西当年的水平,放到现在也是不可小视的。事实上,Tim Berners-Lee应该不是一个开发高手,在1990发明WWW时,PC上的开发工具还非常简单原始,面向对象用的人很少(Turbo C++ 1990年才发布)。而如果你把NeXTSTEP和Turbo C++比较的话,简直一个就是宇宙飞船,一个就是拖拉机。

4、Jobs回到苹果的时候,提到他在施乐学到的其实是三样东西(图形界面、面向对象和网络)。大多数人把Jobs的两次苹果经历割裂来看,我认为其实是统一的,表面上他第二次回来,重点不在Mac上,在iPod,后来在iPhone和iPad。这其实是外行观点。本质上,iPod/iPhone/iPad都是计算机。Jobs的Vision,虽然可能没有说清楚过,但是我认为从第一次苹果时代到第二次苹果时代,都没有改变。就是把从施乐盗来的火,分享给大众。细节点说,就是生产更好用,更容易使用的电脑。

5、苹果的Vision现在是什么?我认为是移动互联网改变世界。iPhone已经做到了,我们不多提了。我想单独提iPad。iPad是功能和用户场景最接近个人电脑的东西,一般人在个人电脑上的90%的操作,在iPad都可以完成。剩余10%并不是iPad的缺点而是优点。

当我给1岁半的女儿一个iPad,然后她在完全没有指导的前提下,玩了几天就会玩,玩到现在完全自得其乐。我得到的体会是,iPad砍去了一些功能,但是得到了更多,它成为了一个任何人都能学会的电脑。孩子可以学会,老人可以学会,人人可以学会。这样人类就从gates的一个桌子上一个电脑,轻松的进化到了,每个人手里一个电脑。对于一个五口之家,以前最多有两台电脑,现在可以有五台,而且更好用。

IT界很多人难以理解这个观点因为他们的工作用iPad无法完成,或者无法优雅完成。但是我认为这才是未来,PC/Mac将是专业人士的专宠,从科学家来,回到科学家专业人士那里去。普通人,音乐家、老师、孩子、医生,其他的认为不以IT为业的人需要的就是iPad这样的电脑。

这样的Vision足以支撑苹果再伟大很多很多年。

觉得答案很精彩?更多精彩答案猛戳这里:Donews工作室——老牌媒体迸发的新能量,你值得观赏。

======带个自私自利的小AD=========

欢迎向DoNews投递关于互联网业界的热点类、观点类、趣点类、分析类、爆料类稿件。地址:tougao@donews.com

转载请注明 DoNews资深作家/郝培强

Tags: ,,.
2009年02月23日

原文:Google大牛Jeff Dean在WSDM(ACM的Web搜索和数据挖掘研讨会)2009上面的演讲

昨天看到好像是大辉共享的, Geeking with Greg写的Jeff Dean keynote at WSDM 2009。现在Jeff Dean的Keynote文件和视频貌似都还没公开放出来,所以我把Geeking with Greg的文章翻译如下,方便有兴趣的同学了解一下。Jeff Dean是何许人也呢?呵呵,他就是Google Mapreduce架构的发明者,那篇尽人皆知论文的第一作者。WSDM又是何物呢?WSDM是美国计算机协会ACM组织的Web搜索和数据挖掘研讨会。Jeff Dean在WSDM2009上面演讲的题目是Challenges in Building Large-Scale Information Retrieval Systems(构建大规模信息检索系统中的挑战),演讲介绍了Google从1999年到2009年,数据量,用户查询次数,以及相应架构的变化。

下面是简要译文:

Google Fellow Jeff Dean在最近的WEDM 2009会议上做了一个非常精彩的演讲,包含了一些我从来没有听说过的关于Google的轶闻。给我最深印象的是,这十年间Google对性能细节的关注,以及他们敏捷的开发模式。

Jeff 给出了从1999年到2009年Google如何成长的几个例子。他们现在拥有1千倍的查询次数。他们现在拥有1千倍的处理能力(机器数量乘以他们的速 度)。而且他们把更新的延迟降低了1万倍,送过去需要数月才能监测到一个Web页面的变化,到现在几分钟即可更新页面的搜索结果。

最后这 一点非常令人印象深刻。Google现在可以非常迅速地监测到很多Web页面的变化,计算这个页面的近似静态排名,并把索引的更新发布出去。对许多页面来 说,搜索结果可以在页面变化数分钟后更新。要做到这点需要解决几个困难的问题–重复抓取的频率和重要度,PageRank的快速近似计算,一个允许快速 更新索引的架构–看来这些问题他们都解决了。

他们的性能改进也令人惊讶,现在显示每个页面的时间是200ms以下。Jeff提到从几年前起,现在绝大多数的索引是完全保存在内存中的。也就是说现在每个查询不是由几十个机器,而是由上千个机器处理的,Jeff说这是值得的,这令每个搜索者可以立即就看到搜索结果。

Google 对细节的注意是可圈可点的。Jeff描述了他们这些年创造和使用过的几种索引压缩技术。他讲到他们如何最后决定了一种格式,4×3的位置信息有序地组合在 一起(By Tiny:原文是a format that grouped four delta of positions together in order,这句我不确定翻译的准确性,因为我没有看明白),这样就可以把压缩过程中需要的移位操作次数降到最低。Jeff说道,他们总是很注意他们的数 据在磁盘上的组织方式,把他们需要快速流读取的数据总是放置在硬盘的外圈,而冷门数据,或者短读取的数据放在磁盘的内圈。他们为没有校验的内存写自己的错 误恢复软件。他们写了自己的硬盘规划器。他们不断地修改Linux内核去满足他们的需求。我们先是设计自己的没有外壳的服务器,然后切换到现成的标准的服 务器,现在他们又转向设计自己的没有外壳的定制服务器了。

Google的敏捷同样令人难忘。Jeff说10年间,他们已经进行过7次主要 的架构升级。这些变化通常牵扯到完全不同的索引格式,或者全新的存储系统例如GFS和BigTable。在一些切换中,他们甚至做到了,在新的数据中心运 行着新的代码,旧的数据中心运行这旧的代码,并在这些数据中心间切换用户的访问。每天,搜索用户持续地接受用户体现方面细微的变化,测试新的代码。 Google的切换安静而快速,用户不会注意到任何变化。

原始的计算能力的地位已经摇摇欲坠了–现在可以用数千个机器为一个请求服务 –虽然这一切看起来那么不可思议。Jeff说,Google机器翻译模型翻译一个句子的时候,会对一个数T的模型进行上百万词的查找。他接着 说,Google的目标是不管你使用什么语言,让你可以读懂任何语言描述的任何信息。这需要的运算量难以计算,看起来这么巨大的运算量可能令所有其他人都 只能战战兢兢的呼喊Google(Tiny:原文The amount of processing required is difficult to fathom, yet it seems the kind of computational mountain that might cause others to falter calls out to Googlers.,说不好这句)。

——云时代的分割线——

Geeking with Greg还提到了,Michael Bendersky该演讲的笔记,下面也大略翻译如下:

1999年到 – 2009年规模的变化

  • 100倍文档数
  • 10000倍查询数(这里Geeking with Greg和Michael Bendersky的数据有出入)
  • 更新速度快了1万倍
  • 查询延迟从小于1秒到大于0.2秒,快了5倍

10倍增长的时候设计的搜索引擎,100倍增长时重新了系统。然后,他粗略描述了从90年代后期开始抓取和索引发生的变化。下面是一些要点。

90年代后期

  • 批量抓取系统,抓到“足够”的页面后停止。
  • 批量索引和Unix工具协同工作。减少了机器失效和数据不一致性。
  • 原始的97索引格式就是简单的字节对齐的系统,包含编码的字段和词频信息。这需要大量的磁盘访问。

之后不久

  • 迁移到新的基于块的变长索引格式,附带高频词跳表。这令索引尺寸小了30%,而且解码更快。
  • 加入结果和文档摘要的缓存服务器。
  • 2001年前期,他们迁移到一个内存索引架构,索引服务器()可以直接和前端服务器沟通。
  • 索引按文档分割而不是按词分割。

最近和当前

  • 从头开始内部设计:机架设计,Pc级主板,Linux,内部软件(GFS,BigTable,等等)
  • 用MapReduce架构来构建索引
  • 2004年他们迁移到一个层级系统来处理索引,这个系统构建在基于GFS的索引之上(现在只有“根级服务器”处理来自Web服务器的请求)
  • 快速索引更新
  • 2007年他们加入超级根服务器,跟所有的垂直信息索引服务器通讯,构建全能搜索(Universal Search)服务。

Google如何实验排序的改变
目标:易于通过实验验证。

  1. 从一个新的排名思想开始
  2. 用MapReduce,BigTable等快速生成实验所需数据
  3. 离线运行,并在(1)人工指定的不同类型的查询 (2) 在随机的查询,上看与现有排名算法的差异(不考虑延迟)
  4. 重复…
  5. 在一个小的随机的访问样本中实验(要考虑延迟!)
  6. 重新实现/调节实现,重新计算数据,要令计算全部数据的时间可行,并把所有需要的其他的数据加入到索引

未来的挑战

  • 跨语言检索 – 质量和架构可伸缩性
  • 检索隐私的,半公开的,共享的以及完全公开的文档
  • 自动构建高效的满足不同需求的信息检索系统
2009年01月15日

原文请见:昨天见了阿里黑帮的思践

2008年08月06日

点击查看:如果杨致远没有作弊的话,谈Yahoo股东对与Google合作的看法

2008年06月30日

点击查看全文从Google财报出发看Google的业务方向以及我对微软收购雅虎的看法

2008年04月26日

点击阅读:比起那两毛钱来说,我的时间更宝贵

2008年04月25日

点击查看全文:电影《解放军占领巴黎》很有意思

2007年07月15日

原文:[搜索引擎友好之路]搜索引擎优化常见问题与回答

2007年05月09日

[ccfbaf57]五一期间的一次夜行记录

2007年04月07日

今天参加了CSDN 2007英雄大会,这个会很不错。可惜李开复博士没来,我本来有三个问题想问李开复博士的,很遗憾。

不过这次第一次见到了猛禽的真人,不错很面嫩。冯大辉这次也来到了北京。还见到了神交久已的田春峰。所以还是很好的.