2006年07月28日

发于程序员2006年5月,有删节和修改。今天突然想起来,觉得还值得拿出来看看,就贴blog 上了,有一些和tiny讨论获得的较新鲜的观点,欢迎拍砖。

让我们倒退到60年代末,那个计算机的上古洪荒年代。这时,微处理器诞生了不到10年,这个年代的计算机开始大量使用集成电路,小型机开始替代古老的大家伙们。1年后,UNIX才出现在实验室中,而C语言,还需要等待4年才会出现。

那个年代,这块神奇的大陆上活跃着那些计算机语言呢?他们是否早已如史前恐龙一般灭绝了?FORTRAN,LISP,COBOL,Simula,BASIC,PL/I,Ada,SQL…..我们惊奇的发现,这些语言到现在仍然好好的生存着,这时候还没有静态语言,所有语言都是带有动态特性的函数语言。

1972年,往往被认为是现在这个年代的开端,这一年中,C语言诞生,Intel 8008微处理器诞生,ARPANET诞生,Internet的大幕拉开了。随后的10多年中,C++,pascal之类的静态语言依次登场,逐渐成为主流开发语言。

在1972年之前,所有的语言都是为了某种专业用途而开发的,FORTRAN为了工程计算,LISP用于人工智能,COBOL用于处理商业逻辑……这些语言的用户往往不是程序员,而是各领域的工程师或科学家。在那个年代,他们使用这些语言就像今天使用word,excel,autocad之类的软件一样。如同我们今天不会认为C比excel更适合财会人员使用,当年的科学家也不会认为C比LISP更友好。至于C所带来的性能提升,并非他们关注的要点。

C的诞生是为了编写UNIX操作系统,这是第一个可以用来写操作系统的高级语言。在此之前,所有的语言都可以看作计算机科学家贡献给其他学科的,C语言是给计算机科学领域自己的礼物。C和UNIX一起开始流行,程序员开始用C编写各种各样的工具和软件,计算机的黄金年代开始了。

在70年代那个内存要以K计,主频仅有几mhz的年代,硬件极其昂贵,操作系统和软件对于性能的需求很高,操作系统是计算机的基础平台,与专业领域的应用不可同日而语。为了性能,程序员们宁愿使用汇编,但考虑到移植性,C还是成了他们最喜欢的语言。

1950年全世界只有100台计算机,1990年的计算机是普通的办公用品。计算机性能越来越高,硬件成本反而逐年下降,企业成了软件市场的最大客户。

企业应用解决的是复杂的商业逻辑和时常变化的业务模型,对于企业应用,性能方面不再像30年前那样重要。企业的发展是动态变化的,在不同阶段,管理方式和业务模式都会发生变化。企业对于灵活性和弹性的要求非常高,用来开发企业应用的语言也相应的需要具有极强的灵活性。互联网的发展让这种趋势变的更加明显。不同于企业应用,互联网应用频繁变化,甚至没有明显的阶段。

软件发展到这个阶段的时候,单机的性能早已不是最重要的因素,多台服务器的并行处理和分布式处理是解决性能问题最重要的方法。从语言层面上速度快一点,节约几M内存对于整个系统不会有太大影响。比起逻辑,开发难度和开发维护成本,性能问题是最不重要的。动态语言优势在于灵活,易于开发和学习,劣势在于性能较低。在高性能服务器和并行处理的设计思路下,动态语言的优势如此耀眼,完全掩盖了劣势。完成同样的功能,用python或是ruby之类的动态语言,所需的代码量往往只有java的1/10,相比C/C++差距更大。

系统软件和应用软件之间的区别也越来越明显,开发系统软件仍然需要静态语言,而应用软件和服务的开发越来越适合采用动态语言。编写操作系统之类的系统软件仍然要“压榨”计算机的性能,对于应用软件,缩短开发周期显然更加重要。

动态语言除了具有语法简洁的优点,大量的程序库也降低了动态语言的开发难度。这好像一个鸡生蛋,蛋生鸡的问题,成熟的程序库降低了动态语言的开发难度,开发难度低反过来又吸引了更多的程序员开发程序库。一个C++程序员,往往经过了几年的训练仍然不能开发出可用的程序库,动态语言的程序员经过几个月的训练已经可以编写可复用的代码了。这些代码往往以开源的形式发布,容易被使用和学习。

程序库往往决定了一种语言应用难度,纵观历史,凡是具有优秀程序库的语言生命力都很顽强,反之则多销声匿迹。目前几种流行的动态语言,都具有丰富的程序库,在python中,不仅具有诸如网络应用,多线程,图像处理,科学运算之类的库,甚至还拥有多套不同量级的Framework来辅助Web开发。事实上,任何需要的功能几乎都能找到相对稳定的库,大部分程序员仅仅需要组合这些库就能编写出强大的应用——这也正是动态语言开发程序代码量较少的原因之一。

动态语言程序员有几乎无尽的库资源可用,比起其他语言的开发者,这是莫大的幸运,可惜郁闷往往环绕在幸运周围。前面说过,任何需要的功能都能找到相对稳定的库,而且不仅是一个,而是多个。哪个库好用,哪个库适合你的项目,每个库的特点是什么?要搞清楚这些问题也要颇费一番时间。至于要决定用哪个,不用哪个,往往让人左右为难。幸好,在开源社区,有众多参与者的项目往往不会太差,代码和文档齐备的代码都值得一试。

除了众多的程序库,动态语言本身的种类也远远大于静态语言,同样,每种语言也各具特点。Python,Ruby,Lua,Perl是四种颇具代表性的语言,按照一般的看法,这些语言适合用来黏合不同的系统和模块,素有“胶水”的之称。现当然,后来人们发现胶水不仅仅能粘合其他模块,本身也具有强大的功能,在性能问题不那么重要的场合,动态语言看起来无所不能了,无论是网站还是应用程序,都能看到动态语言的身影。动态语言成了不可小看的一股势力。对这个时代的程序员来说,掌握一种动态语言很有必要,虽然你不一定能够靠单单一种动态语言找到一份喜欢的工作,但适时的采用动态语言,一定可以让你的工作变的简单许多。

了解动态语言和常用的程序库的特点,是开始动态语言编程的第一步。下面我们将介绍Python ,Ruby,Lua和Perl四种典型动态语言的程序库。

Python不仅在所有主流操作系统上都能运行,而且得到了很多工业控制和嵌入系统的支持,除了各种unix-like的系统,Python还能运行在Palm,索尼的游戏机PSP,nokia的手机操作系统Symbian,风河的嵌入操作系统VxWork上。Python被称做最强的脚本语言,无论开发web应用还是普通应用程序都十分方便。Python诞生了10多年,积累了大批忠实用户,也存在了众多成熟的应用成功案例。

Ruby语言特点类似Python,但发展相对较慢。Ruby最近因为Rails框架而成为了最炙手可热的动态语言,Ruby on Rails适合企业应用,大量java用户对Rails产生了浓厚的兴趣,他们甚至认为Ruby on Rails会对java造成冲击。

Lua小而快速,目前多用来编写游戏引擎所需要的脚本。Lua代码精巧,比起Python或Ruby,Lua小的多。暴雪的著名网络游戏魔兽世界的配置脚本和插件都是采用Lua编写的,这也令Lua开发者迅速增加。

Perl是最古老的动态语言,强于数据分析和计算,也是unix平台上可以用做shell script用做的语言之一,系统管理员都很喜欢这个出色的工具,虽然近年风头被python抢去很多,但拥有CPAN程序库的Perl,仍然是最强大的语言之一。

按照现在的一般开发需求,我们需要的程序库通常是这样几类:web开发框架,GUI界面库,其他辅助工具,至于XML解析,字符串处理函数之类大路货,已经随处皆是,不值得开篇专门介绍了。

1 web开发框架

web如此流行,不仅仅是网站,企业信息化软件和部分个人桌面网站也采用了web界面。web界面成了和普通GUI并行的一种选择。如此众多的应用,使web开发框架变的如此重要,几乎所有语言都有了不错的web开发框架,而且还不止一套。

python的web开发框架多的足以让人挑花眼,比较有名的就有类似 Ruby On Rails的django 和TurboGear,模仿tomcat的webware,轻量级的Quixote,karrigell,更轻量级,用apache模块实现的mod_python和vampire。所有框架都各有特点,当然这也可以换个角度看作个有缺陷。总之,要挑选适合的框架,就要先仔细读文档,看成功案例,对比自己的项目需要,仔细找。

Ruby简单的多,Ruby on Rails风头正劲,甚至已经让人说不清是Ruby成就了Rails还是Rails成就了Ruby,总之,用Ruby开发web应用,非Ruby on Rails莫数。无论是整个框架的结构还是界面的Ajax支持,Rails都是水到渠成了。事实上,也确实没有相同成熟度的项目可以选择了。

Perl的MASON名气很大,也很成熟,不过开发起来的思想和Perl原本的思路差距很大,如果能适应,这倒是个不错的选择。其实perl本身就很适合做web开发,只要有fastcgi,利用CPAN库,大部分应用都能轻松解决了。

Lua用来做web开发有点怪,毕竟不是为了这个目的设计出来的。但是也有一个叫做Kepler的项目提供了web框架,用起来也方便。不过Lua最好的用途还是写脚本,何必用来做web呢?

2 GUI界面库

能够跨平台的GUI界面库,比较成熟的大概只有两个,wxWidgets或是GTK。wxWidgets的可用性和美观程度都优于GTK,很受欢迎。

wxPython,wxLua,wxRuby ,都是不同的语言下对wxWidgets的封装,虽然成熟程度不一,但是无一例外的受到了开发者欢迎。

3 其他辅助工具

此类的库实在太多,每个程序员都有自己喜欢的一套工具。这里只列举一些比较有特点的程序库。

Python的RPC库Pyro,类似C++ ACE库的Twisted,本地编译工具Psyco

Ruby的图形处理库Rmagick,类似于tomcat的Mongrel

Perl仍然不得不提起CPAN,这个库太庞大,无所不包,以至于任何其他的程序库都显得黯然失色。

Lua中调用COM的LuaCOM,JIT 编译器LuaJIT

2006年07月22日

老华讲的非常精彩,都是非常基本的软件开发管理。

基本是基本,可惜在软件公司能做到的也不多。

一个现实的问题,就是管理成本的问题。如果donews采用这种开发管理方法,那么,立刻,人员要增加到3倍左右,效率要降低到目前的一半左右。

软件工程保证的是可复用性和安全性(这个安全,说的是发布后修改成本极大,所以必须要保证发布版尽量稳定)。而互联网要求的是速度,甚至,甚至极端情况可以放弃复用。

两种思维的冲突,从最后tiny问老华关于gtalk升级的问题中可以明显体现出来,同样来自大型软件公司的老白打断了tiny的问题,将gtalk升级的模式归结为版本发布频率。实际上并非如此。这就是软件到互联网产品的观念转化过程。老白代表了传统软件行业的观念,tiny代表了互联网的观念。软件公司与互联网公司的区别可见一斑。

可惜,由于时间关系,我最希望听到的微软项目管理实践的部分未能讲到。同样是最后tiny问的问题,微软产品为何delay。这个问题没有能被详细解答,实在遗憾。微软delay的原因我认为就是软件工程模式的现实问题。一个精巧,无误的系统是不存在的,完美如微软的开发管理体系,仍然难以应付复杂的现实,因此,delay总是出现。但,什么让这个精密的机器运转不那么灵了,微软又是如何处理的?这个问题从2000年我读过《微软项目生存》这套书之后,就一直存在。6年中,我经过了无数项目,有建筑也有软件,有成功也有失败,但我仍然无法回答这个问题。希望下次能有机会再听到老华讲述这些东西,帮我解惑。

互联网开发如何做?我也仍在探索。时间,成本,和速度,如何取得平衡,这是一个难以说清的问题。从敏捷编程(XP)中我们得到很多,或许我们能从开源软件的项目管理中获得更多。事实上世界上最大的项目,不是微软的,而是开源软件的。

总之,互联网开发模式,这应该是个新课题,一切都刚刚开始,行业中所有人,都需要为此而努力。感谢老华给我们这堂精彩的课。

ps: 下周准备开始实践采用Trac的管理系统。

2006年07月18日

昨天给tiny看了一个关于python和c效率的文章。tiny兴致大发,又优化了几个版本,效率有不同程度提高。

其实这个比较,并非在于比较到底python和c那个快。和当初特流行的比较java和c那个快一样,没意义,也无法作到公平的比较。

这事情让我感到震惊的是,python用的是最简单的方式,可以说,学过1天python的程序员就能写的出来。后面的优化也不是什么大不了的算 法,都是非常基本的语句换来换去。C就不然了。C的那几段程序,就算是最低效的那个,也不是学1,2个月的c程序员能写出来的。后面的优化版本更是需要不 浅的功底。

开发效率,这是核心问题。在这个例子中,初级程序员的初级代码,超过了中级程序员的中级代码。到了高级程序员的话,比较这些基本功已经没意义了,那时侯自然另有一番比法。
脚本语言,早已不是过去所谓的:“开发灵活,简单,但效率较低”能概括的了。不得不承认,脚本语言经过了10年的发展,已经正式登上了这个舞台。

语言的魅力在于库,有好的程序库,一种语言就会变的威力无穷。python的标准库已经非常成熟了。似乎可以说,python的标准库是一套非常好 的实现。在python实用主义的思想主导下,快速应用的思想发挥的淋漓尽至于。而实用主义的思想,又导致了python的公用程序库越来越多。有标准库 的扎实基础,扩展出来的程序库质量也不会太糟糕。一种语言就这样成熟了起来。

这时候,正如java在企业开发领域推倒C++一样。脚本或称为动态语言成为主流的时刻不远了。

2006年05月23日

Common Object File Format 是一种运行格式,起源于system V,随后被microsoft在nt上用于PE格式。也算是长寿的格式。

之所以想起来这个,是因为不小心看到了:
http://home.donews.com/cgi-bin/user.fcgi?sw=39&userid=StephenLaw

这个页面,StephenLaw 自称是COFF的发明者,在1980-1983于贝尔实验室工作期间,作为System V的开发者之一发明的。这里面时间和我记忆不太一样,于是打算查查。

查的结果是:

COFF是随着System V release 4出现,时间是1989年11月1日。

System V release1 发行于1983年,这6年间共有3个版本问世。如StephenLaw 所说,其在1980-1983年创造了COFF,为何到1989年才开始应用呢?

另外,我搜遍了互联网,除了StephenLaw自己的书之外,没有其他地方找到这段历史相关的资料。

既然同是donews用户,还请StephenLaw答疑解惑,满足一个技术工作者的好奇心。

2006年05月18日

是因为登陆后的控制板中,会读一些rss ,其中最慢的是读取technorati.com 的incoming url 的,其次慢的是读wordpress.org的。

在wp-inst/wp-admin/index.php中搜索technorati和wordpress.org,把相关的代码去掉即可。

现在my.donews.com登陆速度快了很多了。

2006年05月17日

一些mac使用时候碰上的问题和解决办法,先放这里                                       


firefox:

中文乱码

安装 Aqua firefox set,然后选择合适的字体(我用的都是Hei),就可以了。  
                                                         
vim:                                                      
vim支持中文:安装http://macvim.org 提供的vim 7.0版本,可以支持中文。
为了使用方便,编辑~/.profile ,增加alias gvim=’/pathto/vim7c/gvim’,以后在命令行就可以用gvim xxx来启动vime编辑文件了。
当然,gvim仍然对中文不够友好。目前我采用的方案是用iterm做终端,然后用vim在iterm 中编辑,效果不错。
                                                          
safari:                                                   
切换到地址栏:cmd+l                                       
切换不同的窗口:cmd+~                                     
地址栏:cmd+l                                             
标签切换:cmd+shift+home cmd+shift+end

lftp:                                                     
lftp连接sftp: lftp -u <user> sftp://<server>              
lftp连接ssl ftp: lftp ftps://<user>:<pass>@<server>:<port>

2006年04月29日

上篇blog说过,搞win系统的人之间,往往盛行神秘主义。

最近碰上一个事情,一个系统迁移,所有工作都是原来配置的人重新作了一遍,机器比原来好,网络比原来好,但是就是出了各种问题。

两个人都是该领域的一流高手,为什么呢?于是神秘主义盛行了。更有甚者,认为是人的压力不足,要把他们叫来,大家看着他们做。

其实,要我说,这个事情很简单,就是系统太复杂了,经手的人不可能记住所有的细节,忘掉了哪一个很正常,于是就出事了。经常有人说,这个系统没装好。拜托,计算机是门科学,什么叫做没装好?写好的代码,编译出一样的机器码,用一样的方式运行,一样的配置文件,怎么会出问题?计算机的世界是01的,非是即否,没有模糊的所谓“没装好”这么一说。

当然,由于系统复杂度太高,可能用重新来一次的方法解决一次更容易。于是就成就了所谓“没装好”的神秘主义。

微软的朋友讲过一个故事给我:现在我们运行的win系统里面,有部分代码是nt4时代的古董,到现在仍然不能动,没人敢动,也没人知道能不能动。这部分代码就彻底的神秘了。

windows没有强大的脚本机制,没有开放配置文件,有一部分参数只能在图形界面调整,人是会出错的,但脚本不会。所以unix系统的神秘主义比win少。

人会忘记细节,忘记细节的人大部分时候很难过,他们当然不是故意的。谁愿意毁自己一世英明?

这时候,明白文档重要了吧?win系统不好描述,哪怕配上抓图,写清楚点了那个按钮,用什么顺序,写了什么参数,事无巨细,从安装系统就这么做,然后好好存起来,以后照章执行,不得偷懒,我就不信他能神秘了。

计算机是门科学。我看不得不认同这句话的人自称技术高手。

2006年03月23日

计算机的本质,是提供运算能力的机器。
人们编写各种各样的程序,在机器上运行,于是产生了各种各样的应用。
为了更方便的编写应用,让应用程序的开发门槛降低,我们迫切的需要一种中间层来隔离硬件,于是操作系统出现了。

有趣的是,几十年间,操作系统这个名词虽然存在,但其形式和概念已经发生了翻天覆地的变化。30年前,无法想象会出现现在的windows或是linux这样的操作系统。要知道,最初的所谓操作系统只不过是一个时钟调度(可以看作批处理)的简单程序而已。

这种变化来源于几个方面,一方面是计算能力的提高(内存越来越大,CPU越来越快),允许我们在计算机上赋予更多的内容,开发更复杂的应用,另一方面来源于硬件种类越来越多。

与其说是计算机需要操作系统,不如说应用程序需要操作系统。现代操作系统不是在一夜之间产生的,而是随着历史的发展,缓慢的形成的。简单说来,计算机的本质是应用,操作系统只是提供了应用的运行环境。

java芯片是一个非常有趣的东西,在这个芯片上,可以直接运行java的字节码,这种芯片不在需要一个强大的操作系统来管理硬件资源了。其本身就提供了java运行环境。(事实上,如果你的汇编足够强,那么就可以直接在任何芯片的计算机上直接编写应用程序–就像在单片机上作的那样–而不需要任何操作系统的支持,只不过,这比较麻烦而已。)

java的创举不是创造了虚拟机,事实上虚拟机的概念从smalltalk就存在了。java的创举是将虚拟机放到了不同的层次,在操作系统之上的层面,有jre环境,在操作系统之下的层面,有java芯片。对于不同的操作系统,有不同的jre。

未来的运行环境是什么呢?在大型机的年代,只有主机上上有真正操作系统,客户机只不过是登陆上去,使用主机的资源而已。技术历史不过是一个绕圈子的过程,一圈绕回来,上了一个台阶,但是本质在相当长的一段时间内,仍然是不变的。

有感而发,无意争论。

2005年12月30日

今天发现,freebsd.org无法访问。这是不可能发生的事情,穿墙访问成功。确认被封。

上freebsdchina.org论坛,发现全国都不能访问了。看来是被封了。

我除了骂人真是无话可说了。难道他们对free这个词已经过敏到这种地步了??

打电话到网通投诉,等回复。

如果您也是freebsd的用户,请分别致电当地网通/电信以及集团公司投诉。或许能有点帮助。我真得很悲观。哎。

2005年09月07日

解析XML的方法太多了,经典的DOM和SAX自然不必说,较新的XML pull也很有趣,最近一段时间,我一下子就喜欢上了再XML pull技术上发展起来的JiBX。

JiBX,与其说是解析器,不如叫作映射工具。他的作用就是把一个XML文档映射为java对象。这个功能本不算新鲜,很多东西都能做到,甚至反序列化也算可以。但,JiBX的特点是快和灵活。

传统的映射方式都是完整的对应,即,XML所描述的类是什么样子,生成的对象就是什么样子。JiBX可不同,通过JiBX,可以生成出完全不同的对象,只不过对象中的数据是来源于XML的。其奥秘就在于那个bind文件,通过bind.xml,可以自由灵活的定义XML中的每个字段和Java类的对应关系,甚至对应到方法,甚至进行标准/不标准的格式转化,总之,就是XML不再是逻辑的中心,XML只是一个数据供应者,谁是中心?Java才是。

JiBX快的原因来自于XML pull方式的解析器,XML pull也是最近兴起的,它不完善,它的验证很薄弱,它不像DOM之类的方法那样去处理整份文档或是生成SAX那样的事件流,但,它的速度无人能比,XML pull扔掉了标准中最冗长的部分,节约了大量的性能,全部被转换成了速度。这样好不好,恐怕每个人都有不同的看法。众所周知,C为什么是最快的高级语言,就是因为简单,甚至连数组边界都不验证。XML pull有点像C,要速度不要稳定,它相信程序员会给它足够正确的东西让它处理,在这个年代,看上去颇有几分颠覆性。当然,XML pull不会像C那样被溢出搞的七荤八素,它的异常处理还是很不错的,解析不了的东西他自然不会乱搞,只不过是不干活罢了。

JiBX同样具有XML pull这些缺点,当然,也同样具有这些优点,在XML pull这颗“强劲的心”支持下,JiBX的性能表现同样令人吃惊。

当然,JiBX不适合于所有的场合,也不是能代替DOM或SAX的救世主,但,大部分时候,它确实极方便,传统的解析方式虽然好,不过太麻烦。如果恰好你面临的任务是处理一个相对格式固定的XML,或是不需要进行事件驱动的XML处理,JiBX很有可能帮上你的大忙,不妨试试看。这东西,总是令人难以置信的惊喜。

目前,JiBX只支持Java–Java世界总是有令人惊讶的思想和项目出现。JiBX采用BSD协议,也就是说,用户可以随便在自己的项目应用它,甚至任意更改,不需要征得作者同意或公布修改的部分,难得的胸怀。

以下是一些参考资料,包括一些性能的对比。

Java 中的 XML: 文档模型,第一部分:性能

Java 中的 XML: 数据绑定,第 1 部分:代码生成方法 — JAXB 及其它    

JiBX的老家,有不错的文档和教程