07月 2005

Monthly Archive

NTP: The Network Time Protocol

Posted by Lin on 29 Jul 2005 | Tagged as: 杂念

  NTP 网络时间协议,是基于网络时间服务器与客户机的同步协议,用于保证全球时间的一致性。在 Windows 2000 及 XP 等系统上基本都带了 NTP 支持,在 FreeBSD 或 Linux 也都全部提供相应的支持。
  公司最近新增加了将近二十台服务器,其中有给 web 主站用的,有给 mms 无线增值业务部门用的,也有分配给另一个独立项目组用的,还有一台暂时给 verycd 做反向代理用,其中还有几台用于数据库服务器。
  最近网管的事最近特别繁重。两个网管因为经验不足,导致大量的问题出现。当然这其实也正说明是最近发展比较迅速的表现之一,因此给他们的压力与平时当网管“闲着”比反差极大,当网管有时候是一种很清闲的代名词。
  另外一方面是 lua 研发的 Calendar 插件,涉及到时间管理,所以就又看了看 NTP 协议,看我们项目是否需要加入类似插件,开拓一下思路。同时,在检查网管部署的 snmp 及 mrtg 时不经意发现,将近二十台服务器里,每一台服务器的时间都相差甚多,所以决定为每一台服务器开启时间同步服务。
  在 google 上找到了一份全球 ntp 服务器列表,把 ip 地址提取出来,然后用 fping 将 ping 不通的及响应较慢的 ip 过滤掉,大概留下 26 个响应速度基本上都在 500ms 以内的 ip 地址,自己加了一个域名 ntp.1k.cn 解析过去。
  在 crontab 里面,加入每小时进行一次 ntpdate ntp.1k.cn 的同步任务,今后要网管为每一台服务器保证时间的精确度,必要的话开一台公共服务器,提供诸如 bind, ntpd 等服务,用于内部专用的域名解析、时间同步管理等服务。
  http://www.ntp.org - The Network Time Protocol
  ftp://ftp.rfc-editor.org/in-notes/rfc1305.txt - Network Time Protocol (Version 3)
  ftp://ftp.rfc-editor.org/in-notes/rfc2030.txt - Simple Network Time Protocol (SNTP) Version 4

网管

Posted by Lin on 23 Jul 2005 | Tagged as: 杂念

  开始,二六五的前身也就是华域,来自厦门。因此在成立北京二六五公司时并没有职业网管角色的存在,初期筹备阶段的网管工作基本上是我在兼着,甚至包括局域网内的宽带接入及无线路由器的设置等。
  先前,厦门的网管主要是 gump 和 eric 在兼着,现在厦门的职业网管“瀛瀛一谈”其实也才刚刚上岗不到三个月。
  后来,网管工作越来越干扰我所在职位的正常工作,期间试图培养出一个网管,开始的时候 pizi(也就是 boss)让我看看是不是培养一下大虾,但他在 Unix 方面没什么天赋,大大咧咧的性格也不太适合当网管,因此这阶段除了托管服务器、重启服务器什么的,让他一起帮忙,基本上网管工作还是我在兼着。
  再后来,summer 介绍了 webmaker(wizard)加盟,他分摊一部分网管工作,但是他的性子却又太慢了,以至于安排给他的任务,一天完成不了也许要两天或三天才能完成,因此他也不适合当职业网管,并且他还属于另一个独立项目组。
  直到,我把 maxview 请来了,我才算松了口气。基本上我可以放手让他去干,在他没加盟265公司之前,我们已经认识有好些年了,并且有过一些协作开发,所以他一进来配合就很有默契。他在 Web 编程方面基础很好,虽然正值毕业期,可是已经很有实践经验,因此让他当网管并不能发辉他最大的潜力,所以开始阶段让他协助另一个独立项目组完成 php 的开发工作,虽然他也算是第一次接触 php 开发,但上手的特别快,甚至和有一两年 php 开发经验的 webmaker 比,速度还是要快很多。
  又一次,summer 找来了 tony 来当职业网管,tony 相对比较成熟,与托管方的网管及业务方面做的比较到位,但是他以前有 80% 的机会是管理 Windows 的服务器,对于 Unix 方面接触相对也较少。交给他的一些服务器部署工作,需要用到什么,都得给他讲细一些,甚至将自己在某台机器的操作记录下来,做成文档给他参考。不过就算我写了文档,实际上不知道是他没看懂还是别的原因,有些任务还是没有执行到底。
  最近一次,将 tony 调去那个独立项目组,因为他们的服务器也越来越多。此时,我在网上物色了一个 Linux 管理员小龙,在网上交流的时候,可以感觉得出他对理论方面很到位,想必在现实中应该没有问题,不过他还没毕业,如果已经毕业了该多好呢。
  暑假,小龙和我联系说,能否让他来实习兼职当网管,我答应了让他过来。
  此时,正逢是265网络业务发展最火暴的时期,访问量急剧上升,同时还邀请 allan 加盟,开始大规模的开拓无线业务。因此服务器的需求增加了好几倍。
  对于还没毕业的小龙来说,这应该是理论实践的大好机会,只是在这个关键时刻,容不了多少过错,必须保证服务器稳定万无一失。恰恰访问量太大、恰恰服务器配置没实践过、恰恰犯了和 tony 同样的错、恰恰犯了很多职业网管初期犯的一些常识性错误…
  服务器异常,连续重起三次,查不到原因也没找合适人选上去支援解决问题,后来发现是日志超过2G,开始往错误日志及系统内部发警告,因此影响系统性能;服务器宕机,折腾了半天让机房重启竟然不知道哪一台,唯有让他们贴新标签、画机位图;没有严格按照要求,按流水批量安装部署服务器,本来每台机器的配置和参数讲好,需要部署哪些常用软件包,结果缺这差哪的。新购的5台服务器安排发往沈阳移动,结果给送到南池子,是水儿和 tony 没有沟通到位,小龙在业务交涉方面的还需要再锻炼。
  看似老板急了,其实我也火了。
  老板说,肖工从厦门出差过来了,他当过一段时间网管,目前负责厦门技术部分,可以让他培养一下底下的人,重新规划一下服务器。这阶段必须保证网络的稳定,对265是很关键的时期。越过这个非常时期,DWS 也才有希望让更多的人使用,因为那是我们的一个原始积累。此外还有将无线部门的开发工作部分将会转移到厦门负责,是否服务器网络管理工作也将跟随着过去。
  最近,网管的事常常让我失态,对着网管直哄:常识性错误、基本错误…
  回想,我17岁时在瀛海威当网管,也有七八年了,当年还有“少年网管”的称号,至今刘韧还说我是 DoNews 网管。遇到过的问题也不少,只是可能自己相对比较幸运,该错的不至于太大的错,或者说就算错了,容错的机会也大。
  网络海洋,有容乃大!