2008年05月22日

续前(《自建内容的Google(Google架构之三)

    作者:Paul Wang

在法律上合法以后,Google就开始了技术设计。

这地儿技术人员太少,所以我不做更深入的探讨,只描述个大概。

前面说了,有个WEB的监视设备,那么下一步就是对web的内容进行剖析,分解,和分布。

在设定web剖析的策略之前,我们需要明确我们要剖析什么?

比如,一段Video,其中有萨朗私通不穿内裤接受询问的镜头,我想看,能找到不?

对不起,google的回答是:不能。

ok。我是一个音乐迷,我无意中听了一歌,唱到,“。。。欺骗之后的疲惫。。。”,别的嘛也不知,那么我想找到这首歌,行吗?

对不起,google的回答是:不能。但是,google可以让你搜索歌词库,然后找到歌名。

这就明白了,google的搜索是基于文本的,而不是流媒体–就是指音频、视频等。

其实,流媒体搜索是很复杂的事情,其复杂性不在技术上,而在于商业模式,无法统一,也无法实施。至于技术方面,早就风行世界的mpeg-7,mpeg-21标准,很容易就可以保证流媒体的可搜索性。

按布林的说法,当时google如此决定完全是因为成本的原因:他不可能有钱做流媒体搜索。

分析完文本之后,google将数据结果打包分类分布,他们用术语数据Barrel来形容,就是数据筒,每个桶里都放着打包分类的数据。以加快搜索相应速度。

除此之外,完全依赖于操作系统本身自带的输入输出系统,无法做到高效率,于是Google又开发了基于磁盘数据影射的搜索方式,绕过操作系统,直接搜索。这也并不困难,无法就是缓冲磁盘阵列,然后进行代码的模式匹配-就好比你拿个筛子,合适尺寸的走,不合适的留。

为了相应更高端的搜索要求,他们又做了仿射-也就是说,可以通过不同的途径找到同一的内容。这个更是简单,如果你学过比较好的数学的话。

在这些基本的架构思想敲定后,google开始了服务器的布置,并实现了冗余部署。这个很重要,冗余是保证效率的关键,其目的很简单:让最需要的人在最快的时间内存取最需要的数据。

就这么简单。

为了管理冗余和分布式部署,google开发了全球的文件系统,每一个节点可以mount,也可以卸掉ummont-就好比是需要的时候上车,不需要的时候下车。

这就是google的生蛆原理。不动声色的监视、蠕动、繁殖和分布。

技术上OK就可以了?就可以赚钱了?

可笑!记住,这世界,想赚钱,你得先有钱,所有那些记者们写的如何白手起家的故事都是编排给穷人看的,好让他们有了生活的希望。

要玩钱了,这时候,拉姆·西里亚姆就出马了,这个天才的不折不扣的王八蛋该演戏了。

于是,演出正式开始了。

…to be continued

相关:关于Google的五个“啊呸”
           老二永远为老大服务–关于Google架构的前言
           像蛆一样蠕动(Google架构之一)
         Google还没起飞就会夭折么(Google架构之二)
        自建内容的Google(Google架构之三)

Labels:

2008年05月19日

今天下午14:28,请所有人停下手中的事情,停下脚步。

如果您在开车,如果您不是在救灾的路上,请您停下车,按响汽车喇叭;

如果您正在走路,请您停下脚步,静静的倾听从道路上传出的致哀的鸣笛;

如果您正在座位上,请您起立,默默的,默默的向您自己的内心表达您作为一个中国人心中最诚挚的哀悼……

我个人,将在这三天内停止个人的一切娱乐活动,不玩游戏,不看NBA,我现在无法为灾区排忧解难,但愿我虔诚的祈祷能够有助于上天能够在今后给震区好天气,好年景,让余震赶紧停止吧!!!

————

5.12抗灾歌曲《承诺》 改编自《海阔天空》

作为华人明星的骄傲,成龙除了第一时间捐上巨额善款外,昨晚又紧急号召孙楠、陆毅、李冰冰、刘亦菲、满文军、周迅、陈楚生、李宇春、何洁等在京的百位明星赶录歌曲《承诺》。

  歌曲《承诺》改编自BEYOND的《海阔天空》,经过重新填词创作后,整首歌非常打动人。成龙虽然并不是音乐方面的专家,但乐感很好的他,在助手的帮助下还是给在场的这些明星大腕们面授技艺。

  成龙监制当的是有模有样,不过轮到自己上阵时却显得有些紧张,在唱功上虽然比不了专业歌手,但为慈善奉献爱心却一点也不含糊,成龙一连录了好几遍,直到把自己的部分录制满意为止。

  在录歌的同时,录音棚的另一个房间也正在同步拍摄MV,工作人员也正紧张的忙碌,希望尽早的将这首《承诺》的MV传递到每个人的心中。

作词:刘德华
作曲:黄家驹

演唱:

刘德华、成龙、孙楠、赵文卓张丹露夫妇、满文军、刘亦菲、李冰冰、范冰冰、陆毅、曹颖、周迅、黄奕、付笛声任静夫妇、姜宏波、张世、谭晶、李宇春、沙宝亮、庞龙、吴彤、陈楚生、何洁、尚文婕、陈红、黄渤、孔令奇、刘承俊、简美妍、SARA、张学友、谭咏麟、李克勤、陈奕迅、林依伦、徐小凤、古巨基、阿sa、
容祖儿、张小燕、张菲、沈春华、吴宗宪、S.H.E、大小s、任贤齐、周华健、
徐静蕾、许志安、梁咏琪、杨千嬅、郑少秋、邵美琪、石修、林保怡、王喜、陈启泰、袁文杰、樊奕敏、张家莹、吴小莉、胡一虎、李辉、沈星、周瑛琦、谢亚芳、董嘉耀、姜声扬、泰迪罗宾、黄耀明、卫兰、何韵诗、阿信、飞轮海、魏晨、周杰伦、黄家强

1.多少人 多少幸福被抢夺
多少生活在一瞬间被埋没
一切变沉默
泪光在眼眶闪烁
尘埃沾满了失落 的轮廓(情愿是我)

2. 不必说 你们背后还有我
未来就是崎岖也会陪你过
一个你 一个我
扛起不需要脆弱
前面越走一定会 越宽阔(你还有我)

* 谁都会有恐惧面对黑暗的角落
为了你我再苦也不躲
我要你重获 原来的生活
认定了这一辈子的承诺

( repeat * )

** 纵然山摇地破 也要安然渡过 有你有我 **

( repeat * )
我要你重获 原来的生活
认定了这一辈子的承诺

( repeat* )

————

MP3下载地址(这里

2008年05月15日
 

汶川地震的灾害是我辈人前所未见的。

每个人,都希望能够尽力帮助灾区。所有的心情,我们都能够理解。但是,特别要提醒诸君的是,好心,千万不要帮倒忙。

1,请尽量少向灾区打无谓的电话、发不必要的短信。四川现在通讯压力大,仅仅为了一些无聊人士的谣言,中移动、中联通就要在当地浪费数百万短信的数据发送量。面对这么巨大的灾害,可能一个电话不能及时接通,就会危及到一个鲜活的生命。

2,不要私自去当志愿者。尽管大家都希望能够和当地群众以及子弟兵一起到现场贡献自己的力量,但是,你要知道,你在没有组织没有编制的情况下私自赶 往现场,会极大的增加:当地的运输压力、当地救援的组织难度。还有,每一个到当地的志愿者,也同时成为当地本就特别紧缺的物资的消耗者……要相信,10个 热心民众,也比不上一个有组织的子弟兵,100个热心志愿者,也难以比得上一位专业救援消防员的作用。如果你特别希望帮助当地灾民,请捐钱吧,当地整片地 区的被毁灭,当地需要的是帐篷、衣物和其它必要生活用品,这些,都需要资金来采购。

3,保持关注,请不要几天热度。这次灾害不是经过几天或者十几天的努力就能够过去的。通过电视和网络我们了解到,当地被破坏的情况远远超出我们普通 人能够有的想象,重建家园的工作恐怕要持续数年的时间。而对于伤病员的救治,也不是几天的事情。希望献血的朋友,你们可以晚几天,不用都特意赶在这个时候 来公示你的爱心。因为几周后,因为全国各地血库对于四川的支援,恐怕各地都会出现急需献血的情况,因此,那个时候你的献血更有意义!!

4,帮忙想想长远之计吧。这次灾难,把无数学龄的孩子埋在了废墟里,当地可能大多数6~17岁的孩子集体遇难,对于当地来说,这样的年龄断层,可能是比地震带来的房屋倒塌更可怕的灾难。如何帮助当地人恢复家园,或者帮助当地幸存者在其它地方重新生活,是我们随后不得不面对的巨大问题。

5,准备好慰问子弟兵吧,他们所承受的不仅仅是极度辛苦的体力工作,还面临着我们普通人难以想像的心理煎熬。我们在电视屏幕上看见一个个被武警、消 防和子弟兵们成功拯救出来的幸存者,但是你可知道,那些兵,需要用他们的双手挖出多少具尸体才能找到一个幸存的人??又有多少士兵,在挖出无数尸体后,一 个幸存者也没有找到??这些部队、武警、消防官兵们承受的心理压力和悲痛,是我们难以想像的。

6,全国各地都有驰援灾区的车队,如果你有开车在路上,请主动让出公路的快车道,留给可能经过的救援车队,不要等到把他们堵住了再叹息没有办法。

7,捐款的时候,让你的孩子把零钱交给你自己,你捐出去整钱吧。刚才看到新闻,红十字总会居然还收到了无数的毛票,在这个和时间赛跑的时 候,有限的工作人员不得不花时间去一张一张,一毛一毛的清点这些捐助,实在太…… 捐助无论多少,我们都要肯定,不过,这个时候,来点实际的吧,如果你实在捐助不了太多,就请通过手机短信捐助吧。

2008年05月14日

多少年来,第一次看新闻联播……

看温家宝在第一时间到最惨烈的现场,眼泪止不住的流啊……

真惨,关键是,面积太大!!好多地方同时受灾。

电视报导基本上秉持了正面报导和鼓励性报导为主,所有画面除了展现各地灾区灾害的严重之外,主要是那些被救出的人员的镜头。而我在网上,看到的更多的是死难者的尸体……惨啊!

特别是这次受灾害最大的是那些孩子们。地震发生时,正是各地学校上课的时候……无数孩子被埋在了学校教室的废墟内。都是孩子啊……看新闻报导,几乎各地都有学校完全垮塌,刚刚听新闻,各地现在总共救出生还的学生43名,但是几乎每一个学校都有几百人被压在废墟内……

不敢想了……

第一批昨天就出发的救援队伍,无论是医疗队还是武警、军队、预备役、消防…… 他们的目标都是震中汶川。

但是实际情况是:
第一,所有救援队伍根本就无法进入汶川(听说今天早晨终于有部队轻装徒步翻山几十公里进入了汶川,子弟兵辛苦了!)
第二,走到一半就发现到处都是重灾区了,都就地开始救援……

听说部队准备伞降,当地地形和当前的天气条件,是极不适合伞降的,但是有这种打算,至少还证明了政府急于给汶川送去信心的决心。

我所担心的就是,等到明天我们看到汶川的消息,会是比现在得到的都江堰、川北、广元等地严重一百倍的灾害,多百倍的伤亡……

没什么好说的, 要活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去,活下去

 

灾区群众,被压在废墟中的,和有幸没有被压住的人们,要坚强的活下去!

所有前往灾区救灾的救灾队员,包括所有部队、警察和消防官兵,要保重安全!!你们安全,才能救助更多的群众!!

……

没什么好说的了,捐钱,献血…… 
加油!

 

2008年05月04日

续前(《Google还没起飞就会夭折么(Google架构之二) 》)

    作者:Paul Wang

林琢磨来琢磨去,在纸上写了几条:

1。法律神圣不可侵犯。

在美国这地儿,你想和法律玩儿,简直是在找死,除非你有辛普森那样的大运,和金钱 – 即使你有,你也不能保证一定能赢。

2。搜集的信息源先用google自己的。

这就是Google网络图书馆的概念,goole和几所大学签了协议,建造这些电子图书馆。那么我搜罗的信息都是我自己图书馆里里的,法律许可,你管不着。想必大家都在你工作中、生活中使用了很多很多了。不在赘述。

3。每当搜索我自己的信息时,愿意发布自己信息的,把你的名字发布出去。

就凭着这三条,google从无到有,发展了起来。

随着时间的推移,服务供应商渐渐体会到在线搜索的好处,也越来越多地渐入到了发布了行列。与此同时,服务也渐渐达成了不成文的共识:在DNS(就是地址本儿系统)许可的范围之内的信息,属于可以搜索的合法的内容之列。

实际上,关于这个内容,就连最严格的塞班斯法案也并没能清楚地描述,理由很简单,美国是一个强调民主的国家,个人、公司的利益高于一切,所以没有相关的硬性指示,由各地区自行规定。

但是,在DNS系统之内的信息,比如一个不小心暴露的link,也能让google的引擎去探测,钻探,最终让你的信息变得可以搜索。

怎么办?

google答应服务商,在NATP的概念上,google不涉及,不探测,不公布,不泄露。

NATP是个嘛东西呢?

我前面说了,你家是有公共地址的,比如零零发家的地址。但是,零零发家的厨房和客厅是没有公共地址的,换句话说,你不会在地址本上找到:北京市。xxxxx。。。号厨房;北京市。xxxxx。。。号客厅;这样的地址。

显而易见,厨房和客厅是私有的。这叫内网:内网无处不在。你只要运行一下你机器的Ipconfig,看看你的IP地址是不是192.168。。。。。,如果是,那你就是处于内网,相当于零零发家的厨房和客厅,外人看不到。

但有时候FanFan想向外人显摆她新买的新鞋,于是她就向全世界公开说,欢迎看我的新鞋,请访问北京市。xxxxx。。。号客厅。

OK,这时候,内网的内容就临时性的公开到了外部,这叫NAT(网络地址转换),一旦Fanfan显摆完了,她就关闭了这个临时公开的的地址。也就是说,北京市。xxxxx。。。号客厅不存在了。

听明白了吗?这就是NATs技术的核心。。。我发现好多人NB烘烘的和我说,我懂P2P,我懂NATS,。。这算个狗屁技术??!!??!。。不晓得这些年轻人在NB在炫耀什么?!?!

话说回来,google答应服务商不去碰及所有有关内网的信息。

说实话,这也不是google多么的圣洁和高尚,因为内网信息的临时性,无法让google得到持续一定的数据来源,这才是杀手锏。

就这样,在布林半情愿、不情愿的情况下,google建立了起来。

写道这里,各位可能会问:

布林哪儿来的钱建立他的图书馆的呢??一个穷学生怎么能有那么多钱呢???

我也想建图书馆,可是我没钱,咋办呢?

是阿,到底,布林怎么有了三头六臂,搞到了钱让他启动google呢?

难道是贩毒不成?请听下回分解。

…to be continued

相关:关于Google的五个“啊呸”
           老二永远为老大服务–关于Google架构的前言
           像蛆一样蠕动(Google架构之一)
         Google还没起飞就会夭折么(Google架构之二)

Labels:

————-

除非特别声明,本站采用CreativeCommons License许可:署名,非商业。

 

2008年05月03日

    作者:Paul Wang

和老鹰起飞的逻辑一致,Google走的是地下路线,土行孙的路数,但也是先监视Web的动作。

在讲web之前,我得先插一句,你们要知道,这世界可不是只有一种网络,Web,事实上Web是最后的网络。在web之前,有电话网络、收音机网络、电报网络、电视网络。。等等各种网络,他们和Web完全不同。布林实际上最早琢磨的是如何监视和利用电视网络,这样的话,google可以很容易的和营业额很差的一些服务供应商联营,实现盈利的目的。

可惜,电视业的老大们,像著名的CNN之类的,不好使,看不到google的前景。于是布林就断了此念头,专心于web。

web很简单,很容易监视。因为Web是通过地址本来实现的。

比如零零发家,中国北京市东城区鼓楼东大街xxxx号xxx楼。这就是一个确切的地址。

web也是一样编码,也有这样的地址,只不过它的写法不同,变成了64.233.189.99。(这是google的地址)。

总之,我可以知道所有的地址-这不过是个数字游戏而已-,那么监视其内容也就顺理成章了,对把?

但是,出乎布林意料的是,他碰到了前所未有的法律问题:我家的地址并不受法律保护,但是我家的东西受保护,你不可以监视!!!!!!

的确,假如你家安了摄像机,世界上所有人都能看到你家的一举一动,你会不会很恼火呢?

于是这些人开始反对google,理由只有一个:

我有反对被搜索被检测的权利!

这一下子,布林的google就处于了绝境,因为你违背了人类的隐私权!!

怎么办?

布林急得嘴角起跑,脚底生疮,团团措手,而毫无章法。难道说,google还没有起飞,就夭折了吗???

…to be continued

相关:关于Google的五个“啊呸”
           老二永远为老大服务–关于Google架构的前言
           像蛆一样蠕动(Google架构之一)

Labels:

————-

除非特别声明,本站采用Creative<br />
Commons License许可:署名,非商业。

 

2008年05月01日

 

    作者:Paul Wang

你果真认为人类是世界上最成功的动物吗?真的吗?

如果你说是,那么很不幸,你没文化:低头看看地上的蚂蚁,它们无处不在,和人类一样成功;抬头看看嗡嗡叫的蚊子 – 如果你能 – 它们也和你一样成功!!

你杀不完,煮不烂,击不溃它们!永远不能。

速度不快的坚持不懈的蠕动、迁移和尽心尽力的繁殖,才是王道,也是蚂蚁们和蚊子们大肆繁荣的哲学原理。

布林如何不懂得这个生物界最基本的道理?

于是,Google架构的第一个特色就是:蠕动,迁移,和繁殖!

顺便说一句,我一定用最通俗的语言讲Google的架构,放心,保你高小文化也能看懂。

大家都知道老鹰眼神好,可你研究过老鹰是如何抓兔子的吗?

老鹰首先起飞,选一个区域,比如华北平原;盘旋一把,来到了十三陵水库边儿;选择一个树木不茂盛之地,便于观察。于是开始漫长的盘旋和等待,等待兔子的出现,一爪击之,吃掉!

老鹰抓兔子的办法和启示就是当年所谓不可一世的斯坦福大学的导致google产生核心思想的论文的基本思想。

当然,Google没有老鹰那么的雄壮,low class的多得多,他们只能蠕动。

…to be continued

上一篇:老二永远为老大服务–关于Google架构的前言

Labels:

 

————-

除非特别声明,本站采用Creative<br />
Commons License许可:署名,非商业。