2005年06月28日

今天看到了我blog上的一条feedback:

Comment from: Platinum

"话题又绕回去了……你让全球上亿网民如何去理解为什么不要用 windows 自带的 IE 而去用 FF?FF
所做的绝大部分官方广告(起码是我看到的全部)都在强调安全性,“在中国,会用后退的就是高级用户”,你要他们怎么去理解插件?FF
到现在在我看来还是一个小圈子里自娱自乐的东西,或许你们会觉得这个圈子好像很大的样子,绝大部分网民都不是这些会重装系统的精英的

还有,我总是听到这么个论调,无法支持 ActiveX 是 FF 的最大优点"

前面一篇blog中我说过,firefox并非特别强调其安全性,只不过是国内媒体喜欢炒作安全。果然,Platinum被误导了。

为了证明他说得不对,我查询了一些资料,有点多,不放在正文中了,附在文末。

很奇怪的,不知道从什么时候开始,在中文媒体上安全论变得非常热门,凡事必要提安全,但安全确是个大骗局,我们每天接触的东西都是不怎么安全的,反而在奢谈安全。

adex
过一句很有道理的话:“安全不是那种常挂在嘴上的东西,而是要落实在每次行动的细节上。”,我深以为然。以activex为例,一个拥有非常大权限的应
用,却没有合适的机制来监管,甚至不能有效的被卸载,这样的特权是相当危险的。正如无监管的特权必将导致腐败。因此,我仍然坚持认为IE最大的安全问题就
是activeX。

附:firefox的广告宣传

1 http://www.mozilla.org/products/firefox/ firefox官方网站

Title : Firefox Rediscover the web (重新发现web)

简介 : Firefox empowers you to browse faster, more safely and more
efficiently than with any other browser. (这里提到了more
safely,不过并非中国媒体所大肆渲染得那样,只不过是其特性之一,我们也要承认,firefox确实是安全一些的,more safely 排在
faster 之后,同时还有more efficiently)

引用的名言:

“Beware of spyware. If you can, use the Firefox browser.” – USA Today

“Better than Internet Explorer by leaps and bounds.” – FORBES

(同样没有特地强调安全,阻挡spyware,firefox做得很好,毫不夸大。)

2 http://www.spreadfirefox.com/ firefox推广站

这个站点包含了很多推广的方法和创意,但是我没有从中找到特别强调安全的字眼。有兴趣的朋友不妨去找找看。

3 http://www.mozilla.org/images/nyt_ad_large_2004.png mozilla基金会集资在纽约时报刊登的两页广告。

第一页: Are you fed up with your web browser? (你对你的浏览器厌烦了吗?)

第二页: 除了图标,就是一些用户体验,其中第一条是说明faster 第二条是说稳定,阻止弹出窗口,可以算作安全 第三条是浏览的体验好。

没有找到特别强调安全的字眼。

4 http://mozilla.wattenscheid.net/firefox_faz_anzeige.pdf mozilla基金会在欧洲投放的广告设计图

和在纽约时报的广告风格类似,全篇黑白,firefox图标是彩色的,广告语是 Rediscover the web (重新发现web)

对于安全只字未提。

2005年06月24日

上一次辞职的时候,老板问我,“加薪会不会留下来?”我说不会。“升职呢?” “技术这边,我已经是最高职位了,给我技术总监的头衔,干的事情无非还是差不多。”我笑了。他也笑了。“那,你说,怎么样你愿意留下”“裁员一半”。这当然不可能。所以我离开了。

虽然离家比较远是我萌发去意的重大原因,但,人多造成的管理混乱是耐心的底线。如果真的裁员一半,就算远,我也陪他干到底。说这句话,并不是我信口开河,几年的时间,我早就看清楚了谁有用谁没用,谁在给别人制造麻烦,一半,是我的保守估计。

这几天传来消息,一部分被裁掉,另一部分业务转为另外两个公司单独运作。最后,这部分剩下的人大概70个。差不多符合了我当初所说的条件。

说起这个,并不是在炫耀我的判断能力,而是看到了杜洪超给刘韧的建议

我曾经用《我们需要怎样的互联网企业》来探讨互联网企业的规模和定位问题。小企业才是互联网的企业,大企业最多叫做Hi-tech。

我不是一个好职员,工作的时候我会走神,会睡觉,会上网看别人的blog,会聊天,会研究我喜欢的技术。但,当作自己做点自己喜欢的东西的时候——天亮了,怎么这就到早晨了?

我不承认自己缺乏职业道德,该做的事情我绝不耽误。大部分时候其实一天3个小时的工作足够了,不过乏味的3个小时工作往往被拉长到10个小时——你就是没有心情作。上面说的工作的时候那些举动,其实是代表了我的烦躁不安。

所以,我喜欢合伙制,如果能做自己喜欢的东西,这就更妙了。

为什么要人少?因为人多了会造成管理成本的直线上升,但就算这样,也未必管得好,办公室政治也是这么出来的。大家都花时间琢磨这个,谁来干活呢?我以我多
年对办公室政治的观察证明,很多人,为了让自己看上去很忙,总是在给真正做事情的人制造麻烦。别以为这是国企和私企的通病,外企斗的更厉害。

当然,选朋友的时候要选好,不说一起合作一辈子,至少要在离开的时候不出卖,不背叛,能缄默。

2005年06月22日

老牛写了一篇:Firefox也不牛x了吧?

我回复了:

——————

virushuo 发表于2005-06-22 2:06 PM

还是安全很多的。以下几点供参考:

1 钓鱼攻击手法太多,这个东西很多问题不应该只怪浏览器。如果出现问题,那么必定是ie和ff一起出现,用ie并不能降低风险。

2
对于个人用户,尤其是中国的个人用户,最大的危险来自于任意运行的插件。IE的activeX原来是ms用来打击对手的,给予的权限太高,安全限制太少,
有很多漏洞可以任意运行activeX(前几天csdn的所谓blog病毒也是如此)。firefox完全没有这个担心,firefox支持的插件是相对
安全的。在最危险的这个因素面前,firefox显然更有优势。

3 美国的信用卡大批量泄漏,是从服务器段泄漏,并非客户端。而泄漏的服务器是win+IIS。如果是Freebsd+Apache,怕是没那么容易。

安全这个问题,威胁无处不在。使用firefox能让威胁降低很多,已经很好了。至少,任何网站我都敢用firefox上去看看,用ie,肯定不敢。

virushuo 发表于2005-06-22 2:07 PM

另外,firefox从没有在安全上为自己吹嘘太多,都是媒体和记者炒作出来的。

firefox的宣传点是:更好的浏览器,你能信任的浏览器,重新发现web。很恰当,我用firefox最大的原因是因为好用,而不是因为安全。虽然他确实安全。

——————

我很喜欢firefox,但绝不是因为安全。我相信任何人也不会把安全放在第一位–就像老牛说网上银行危险,但因为方便仍然在用一样。如果安全是第一位的,那么,没人会用windows,还是freebsd放心点。


得有一次和keso聊到firefox,keso表示如果不是因为各种各样的扩展,他早就无法忍受firefox经常报错和内存泄漏了(我倒是没怎么碰上
这种问题,很奇怪)。IE的ActiveX能做到的事情比firefox扩展能做的工作多得多,甚至能用来格式化硬盘。但为什么IE没有这么多扩展呢?


认为是ActiveX严重的打击了用户信心,这年头,恐怕没有多少人敢用ActiveX的东西。做ActiveX插件很难得到收益,而Firefox则有
专门的网站来收集,下载,推荐扩展,Firefox的open态度,再加上制作Fireofx扩展非常容易,于是,百花齐放,各种稀奇古怪的应用都出现
了。Firefox变得更好用了。

中国的IT媒体,总喜欢在不明事实真相的时候就开始炒作,比如说炒作Gmail的1G邮箱,Gmail的优秀仅仅因为容量大吗?炒作Firefox的安全,Firefox的优秀,仅仅是因为安全吗?

最后,补充一个刚刚看到的例证:广告程序Adware/ToolBar疯狂肆虐 危害甚于病毒

2005年06月20日

很多人似乎都认为搜索引擎抓取的页面越多越好,并以此为根据证明百度所能搜索的中文网页多于google,最近我发现这个评价标准似乎死板了点。

过去,我用自己的服务器,没有流量限制,我也不会去关心机器人所引起的流量。现在,我使用租用的空间,有流量限制,这个问题我不能不关心了。

以下是通过awstats分析日志所得的结果。



其中,排第一名的是百度,抓取页面1000个,占用流量13.72 M字节。

排第二名的是Inktomi Slurp,这是yahoo的bot,抓取页面373个,占用流量5.16 M字节

第三名是Googlebot,抓取页面89个,占用流量1.90 M字节

这三个搜索引擎,为我带来了什么呢?我想知道他们的收录情况。于是,我抓了下面这三张图。

百度,收录网页0个。



yahoo,收录网页173个。



google,收录网页19个。



我的网站,我是清楚的。这个blog刚刚建立,正在转移数据,还没有什么东西,google的19个页面是准确的。

yahoo收录的页面也是正确的,但由于没有剔除过期的结果,所以看起来收录的页面比google多很多。这也很难说是好事还是坏事,姑且认为可以接受吧。

百度,我很好奇他们把抓走的1000个页面放在那里了(我也很想知道这1000个页面是从哪里抓到的,咱这网站根本就没这么多页面),是不是等着我去竞价排名呢?占用我网站访问第一大流量的,竟然什么都没能带给我。

看来,百度没什么用,还占用了大量的流量,这令人无法接受。由于百度不遵守robot.txt的规则(也就是说,这是个不遵守礼貌的机器人),我将在服务器上屏蔽baidu的bot。。同时,我们也知道了,收录数目并不等于有效收录数目,有效收录数目并不等于有效检索数目。google的精简的19个结果,
令我很满意——占用我的流量不大,数据准确,对搜索者最有实际意义。google,仍然是我首选的搜索引擎,就算是中文,也无人能够超越。所谓的
google迷恋,并非是情感或是习惯,google令我感觉舒服,令我的工作更有效率,脑筋正常的人比较一下以上三个结果,会选择谁呢?

2005年06月17日

最近搞了一个ajax应用,感觉不错。

背景如下:某国产T开头3个字母专作政府单位项目的数据库厂商,他们的东西实在太糟糕,无论是数据库本身还是他们提供外包项目开发人员。(报错,超时,总
共70W数据的库,检索10条记录需要n秒。其自带的发布系统,每次都要编译模版,并导致jsp重新编译)用户从访问开始,到看到页面,内容,少则10
秒,多则几十秒。

这东西怎么办呢?俺可不想给他动大手术,出了问题,留了后遗症,对大家都没好处。于是做基于ajax的简易解决方案如下:

1 彻底分离数据和表现,用一个servlet来获取数据,输出xml –鉴于那个破烂数据库的效率,此步耗时1-5秒。

2
去掉模版,模版只是为了改变页面方便,如果页面中不包含数据的逻辑,自然也就不麻烦了。本系统中去掉模版的好处是避免了重新编译jsp(列位看官可见过这
样的发布/模版系统?)。用js处理包含数据的div,用css调整页面,并把div放到合适的位置,赋予合适的样式。

3 这时候,打开页面非常迅速,apache的性能不是吹出来的。但,由于数据库慢,获取数据还需要1-5秒。好在是异步加载。这段时间怎么办?放进度条?no…太不职业了。我的选择是:在上面放带有进度条的广告。

这个方案,用户满意–比原来快多了嘛,领导满意–快多了,还能多赚点钱,我也满意–方案够简单,没什么后遗症。

2005年06月16日

看到某些人在挑微软的毛病,开始还觉得挺好玩。渐渐的觉得不那么好玩,相反还有点恐惧。

2002年,google被掐死过了一次,当时我的感觉是窒息。至于这事情到底是不是号称的中文第一大搜索引擎干的,咱没证据,不敢乱说。但,google到现在仍然让人用不爽,足和那次事件有关。现在,同样的事情又来了。只不过打击的范围更广。


照他们的观点,无证经营的msn应该被关掉,同理可得,google也应该关掉,世界上任何地方的凡是含有中文字符的网站,都有位中国用户提供服务的可
能,一样应该备案,否则就要被关掉或屏蔽掉。同样,中国50岁以上的人,大多精通俄语,所以俄语也存在潜在的为中国用户提供服务的可能,一样要备案关掉。
而,40岁以下的人,生活在一个英语重于一切的年代,看英文网站问题不大,于是,英文网站事实上也在为中国用户提供服务,英文网站也需要关掉。用不了多
久,我们对互联网持续投资建设10多年之后,终于收获了一个有朝鲜特色的中国互联网。

政府当然不想看到这样,否则就不用让大家学英语了。因此,某些枪手实际上是误导政府,是在试图让信息产业部出丑,其实也是在破坏社会主义现代化建设。(微软开办msn,同样对华投资,建立了合资公司,吸引外资,多么重要的事情)。光凭这一点,这些人就是千古罪人。

因为以上潜在的危险,每一个IT从业人士都应该打击他们,让他们掌握了太多的话语权,形成霸权,恐怕会影响到我们每个人的饭碗。就算是非IT人士,也不应该放过他们,除非你完全不需要使用互联网进行工作。但我想看到这些文字的人中不存在这种事情。

起来,为了我们的互联网,为了我们的社会主义现代化,打倒博客中国!

(仿博客中国某些枪手宏大叙事之作,笑谈)

不过,我会经常向相关部门举报一些某网站的色情内容,帮助他们与时俱进的。

ps:看到顺风头衔上有“世界IT实验室”这个头衔,觉得真厉害,伟人啊。为了看看这个组织多伟大,google了一下,发现原来是icxo.com这个私人的口碑恶劣的网站开办的一个栏目。有点惋惜,他们这个栏目应该叫做“中国国务院”,这样顺风就成了国务院专家了。

看到donews正在为Trackback spam烦恼。恐怕很快这将成为一个公共问题,中国人学会这种spam,恐怕用不了多久。

从email
spam到论坛的自动发贴机,再到Trackback。这三种方式中,论坛的体系最为严密,一般要求注册才能发言,就算如此,也挡不住spam。现在据我
所知有针对动网论坛的spam机,自动注册,自动发贴,非常可怕。这种玩意其实比普通得DDos危害更大,普通得DDos只是对daemon进程造成影
响,而这种利用cgi程序本身的功能完成的spam则直接影响cgi程序。众所周知,daemon要比cgi健壮的多,cgi又比虚拟机健壮的多。如果搞
掉一个apache的httpd需要100W次访问,那么大概发送1W个Trackback就足够让.net完蛋了。spam,不仅仅是spam,很快就
要上升到网络安全的层面了。

应对方案,如果把他当做ddos来考虑,思路是比较固定的。大概是这样:

1 代理

2 攻击检测

3 过滤和审核

分条解释

1 代理

代理也可以看作中介,作用是让连接首先通过一个健壮的系统,进行一系列的甄别和过滤之后再转发给不健壮的系统。

典型的应用场景:例如使用IIS提供web服务,但在防火墙上封闭IIS对外访问的端口,只接受来自某ip的请求,在该ip的机器上安装apache,应
用反向代理,转发客户端请求给iis,并把iis的回应转发回客户端。这样做的依据是apache漏洞少于iis,稳定性高,同时可处理的并发数多。

同样的道理也适用于apache+tomcat的经典组合,用户请求首先到达apache,静态页面,图片等不需要servlet容器支持的资源可直接用apache回应给客户端,jsp/servlet通过端口转发给tomcat,并将处理结果返回。

更多的例子出现在防火墙的应用上。道理和以上所描述类似。总之就是把健壮的系统暴露出来,把不健壮的系统隐藏起来。(其实这也是我不看好.net的原因之一——IIS本身就是不健壮的系统,何来稳定呢?)

2 攻击检测

如何判断一个请求是正常的访问,还是攻击呢?成本比较低的思路也是固定的几种:

一种是模式识别,通过分析大量的攻击样本,从中抽取出典型特征,用于判断。比如说著名的SYN攻击,其特征是同时出现大量的tcp半连接(SYN_RECV on linux/unix SYN_RECEIVED on windows)。

另一种是知识库,通过人工整理过滤列表,形成知识库,凡是符合知识库中所列样本的,即判别为供给。


较好的方式使两者结合,通过人工报告作为样本,用贝叶斯或者傅立叶算法作加权处理(自动化或是电子专业的兄弟们应该不陌生吧。),自动判别攻击。当然,这
个效率虽高,准确性往往有点问题。说到这里,替gmail做个广告,不知道google的反垃圾邮件算法是什么,准确的一塌糊涂。我是gmail的第二批
测试用户,用到现在,只有过一次垃圾判别错误。其中甚至有一些垃圾邮件伪装的实在太好了,我初看上去都甚至认为不是垃圾,gmail也没有放过。

3 过滤和审核

检测出来之后,就简单多了。直接过滤掉或等相关权限用户进行审核处理。

结合以上思路,我考虑的对付Trackback spam的方法如下:

1 建立spam知识库,Trackback spam的特点是来源确定,进行Track spam的目的是将用户通过连接待到目标网站,因此,无论人工或是自动判断,一旦确认spam,即可把其来源作为特征加入知识库。

2 Trackback代理

Trackback目标不要采用现在的blog server,单独建立一个代理服务器假设叫做Tbproxy,blog
server只接受来自这个Tbproxy的数据。Tbproxy要做的是将接收到的数据应用知识库进行判别,确定的直接过滤掉,不确定的放入审核。
Tbproxy可采用一台Freebsd服务器,用C开发一个网关程序,用正则表达式匹配垃圾来源,保证效率。过滤掉垃圾之后,其他的数据可以将其来源和
参数一起post给blog server。

其中难点:

1 spam知识库的建立,如何建立,谁来建立,谁有权增加或减少其中内容,如何保证公平。

2 Tbproxy,如何能具有通用性,过滤如何能更准确(海量的智能挖掘似乎能排上一些用场),效率如何提高。


果能跨越这些难点,相信对spam具有很强的打击性,如果多个网站形成联盟,那威力更大——一旦进入spam知识库,永世难以翻身,如果联盟范围足够广,
那这个网站相当于在internet上消失掉了——Trackback spam的制造者,往往也是恶性seo的始作俑者。打击掉他们,对用户非常有利。

一家之言,戏言,异想天开,胡扯之言。网络安全和防火墙并非我的专业,也并非我的强项,只是凭着对技术本能的理解,写下这篇东西,希望能抛砖引玉,供大家批评,讨论,毕竟,spam的麻烦早晚会让大家都变得很不爽。

2005年06月15日

好像这东西沉寂了很久,不过这最近似乎突然变得比较凶猛。

以下为今天办公室电话,我只能听到我同事的回答,对方言论只能靠猜测:

通用网址:您的中文域名XXX已经被预注册,您是否要提前抢回来?

同事:他凭什么注册?

通用网址:(解释了一堆通用网址注册的东西),总之,如果没人注册,就可以随便注册。

同事:我们是中国开头的名字,中字头的东西是能随便注册的吗?他有哪个资质吗?上级主管部门批准他使用吗?

通用网址:可以注册。。。(解释若干)

同事:那你给我注册一个中国国务院。

通用网址:……

今天从donews上看到http://home.donews.com/donews/article/7/79306.html

原来如此,背后还有这般动作。这是一片神奇的土地。说实话,我还真有点佩服3721了,内忧外患的,不容易。


刚刚得到消息,博客中国将改名为“博客网”,域名也将改为bokee.com。这令我异常欣喜,终于,博客中国撕去了blog的面纱,丢掉了blog这根拐杖,裸露出了自己本来面目。

这实在是件好事,从此,我可以放心的写我的blog,不用担心被叫做博客,不用担心被当作XXX之类。从此,有人跟我提起博客的时候,我就会告诉他,那个的英文是bokee,并非blog,你说的是两个东西。


天开会,领导说起博客,令我颇为惊讶—他竟然知道博客,看来媒体们力量真是很强。我不礼貌的打断他,说:您说的是blog吧?哪个不是博客。于是,领导下
面讲到的时候,说的都是blog而不是博客。看,大部分人并不知道到底是怎么回事,只需要我们稍稍引导,他们就走上正确的路了。

博客中国这次改名行动,有利于我们帮助更多的人。这大概是博客中国成立以来做得最好的事情了。

2005年06月08日

最近,关于google的负面新闻越来越多,越来越滥。中国的IT媒体和记者似乎都有一个毛病,当FUD一个东西的时候,就要FUD到底,用各种比喻让懂不懂的人都理解,用各种宏大叙事拉到国家层面,用民族感情将其打击致死。



前些年反微软,最近又挑上了google。



打击google,这次大家的口径很统一,就是因为封杀某些网站。不过,这么多篇FUD文章,只有一个似乎能站住脚的案例,就是“手机之家”。手机之家为什么被封掉,我确实搞不清楚。也许有link farm之嫌?我坚信其中必然有合理的原因,但,我说不出来。



至于他们举出其他的例子,包括verycd,驽兽下载,这些案例,我看都不太见得光。某一篇blog中,
我曾经说过:“有人说他的google
adsense每天有400W浏览,1W点击,如果互联网广告的点击率能够到达百分之多少这个级别,不知道大卫·奥格威会不会惊的从墓里跳出来。拜托,说
谎说得也要专业点。” 被封的网站中,恐怕10之8,9是破坏了google的游戏规则。我不知道他们有没有读过“PageRank
信息,指南,谬识与事实,搜索引擎优化提供商”这几篇google的官方建议。希望试图触及此选题的记者也读一读,不要人云亦云,你们要对舆论和业界负
责。当然,其中或许有另一只看不见的手推动,这就不好擅自评论了。



今天又见奇文一篇——“看不懂的google中国游戏规则 封杀网站是否遭来杀身之祸”。
前面的没什么新意,和以往那些文章差不多,后面的颇为有趣“google是哪类网站,现在看来不仅仅是做搜索的,可以不按照中国政府的意思在首页悬挂“营
业执照”,是非经营性网站就得挂网站备案的备案号,是经营性的网站是不是还需要标准营业执照?”,拜托,请问hotmail有吗?拜托,请问
msn.com有吗?msdn.com有吗?www.microsoft.com有吗?请不要用一个中国某些人制定出来的游戏规则去适应世界,未免太驼鸟
了点。后面一句更可笑“如何’封杀’google这样的网站似乎成了当前一个难题。备案也好,经营性的ICP牌照,服务器放在国外似乎可以有种“吉人自有
天相”,但既然打算认真进入中国做经营,不知道有没有中国规则。”
请问google被封杀的还少吗?不知道作者是不是本年度才接触互联网的新用户。封杀google有难度吗?似乎太小看了我们耗资无数亿的GFW了吧。不
知道,这个作者是不是希望互联网变成人民日报或是中央电视台。抑或是朝鲜互联网的模式?



话说回来,如果google不封杀那些网站,我恐怕真地对他有点失望,而,google做了,做得如此坚决,而且决无后手,绝没有竞价排名这一说,你违反了游戏规则,那你就出局。多么令人钦佩的手法。



至于铺天盖地的FUD,我无视他们。口碑相传是很强大的,我会让身边所有人知道google的好处。至于那些FUD者,你们难受去吧。

 

 







另外一件我不理解的事情:为什么大家都喊着百度是最大的中文搜索引擎,反而还在乎google封杀什么。既然百度好,你们大可以用百度,只当作google不存在就好。百度的排名多么容易,竞价呗。