2005年05月18日

下面列出的并不都是我们所说“真正意义上”的crawl整个网络的搜索引擎。例如,雅虎和Open Directory都是通过人工编辑内容的“分类目录”。事实上,下面的这22个主要服务都提供搜索和分类两类信息,虽然都有各自的着重点。 
   
1. AOL Search
http://search.aol.com/ 
通过AOL Search,美国在线AOL的用户可以从一个地方搜索整个网络和AOL自己的信息内容。上面列出的“对外”版本不包括AOL本身的内容。他们的分类目录和其中的站点信息来自Open Directory(见下),Inktomi (见下)提供机器搜索的结果(crawler-based results),作为分类目录的补 充。在1999年10月AOL Search发布之前,AOL使用的是由Excite支持的AOL NetFind。 
2. AltaVista
http://www.altavista.com/ 
根据检索的页面数,AltaVista一直都是互联网上最大的搜索引擎之一。它全面的覆盖度和提供的各种 高级搜索命令使它成为网上搜索者的最爱之一。它也开发了许多针对初级用户的功能,例如“Ask AltaVista”——来自Ask Jeeves(见下)。AltaVista使用的分类目录主要来自Open Directory。AltaVista于1995年12月开始运行,最初由Digital拥有,然后1998年Digital被Compaq购买后,AltaVista由Compaq负责,接着它成为一家独立的公司,现在由CMGI集团控制。 
3. Ask Jeeves
http://www.askjeeves.com/ 
Ask Jeeves是一种人工的搜索服务,目标在于指向到回答你所提问题的具体页面。如果它在自己的数据库中没有找到相关答案,它会提供从其他各个搜索引擎中找到的页面。该服务于1997年四月中旬开始其 beta测试,于1997年6月1日完全开始运作。Ask Jeeves的结果也出现在AltaVista中(见上)。 
4. Direct Hit
http://www.directhit.com/ 
Direct Hit主要与其他搜索引擎合作,提炼他们的搜索结果来提供服务。它的提炼是通过监测用户对他们自己的搜索结果的点击情况来实现,那些获得更多用户点击的站点会在Direct Hit的排名中升到较高的位置。因此,这种服务又称为“流行度引擎”。Direct Hit的技术目前在HotBot获得很好的应用,它同时也提炼Lycos的搜索结果,在LookSmart和MSN Search中也是一个选项。另外Direct Hit公司本身也检索(crawls)网络以优化它自己的数据库,这些通过上面的链接可以查看到。 
5. Excite
http://www.excite.com/ 
Excite是互联网上最流行的搜索服务之一,它有一个中等规模的检索页面,而且在合适的情况下,在其搜索结果中会整合一些非网络的资料,比如公司信息和体育比赛结果等。Excite于1995年下半年开始提供服务,成长的非常迅速并吞并了两个竞争者,1996年7月吞并Magellan,1996年11月收购 WebCrawler,这两家公司目前仍作为独立的服务在运作。 
6. FAST Search
http://www.alltheweb.com/ 
以前称为“All The Web”,FAST Search的目标是检索整个网络。它是第一个检索页面突破2亿的搜索引擎,FAST Search背后的这家挪威公司也支持着Lycos的MP3搜索引擎。FAST Search于1999年5月推出。 
7. Go/Infoseek
http://www.go.com/ 
Go是一个由Infoseek和Disney共同推出的门户站点,它提供了门户站点的特色如个性化定制、免费邮件等,同时它也将以前的InfoSeek搜索服务整合在其中。信息搜索者会发现GO搜索引擎对于很多一般的查询都能给出高质量的结果,这要归功于它独特的ESP搜索算法。它同时也有一个非常棒的人工编辑分类目录。Go是1999年元月正式推出,它和下面介绍的GoTo没有关系。先前的Infoseek服务是1995年初开始的。 
8. GoTo
http://www.goto.com/ 
和其他主要搜索引擎不同,GoTo出售它的主要目录上的排名。一家公司可以通过付费提高自己在搜索结果中的排名,GoTo认为这样可以增强搜索结果的相关性。GoTo引擎的免费搜索结果来自Inktomi。GoTo于1997发布,整合了先前Colorado大学开发的World Wide Web Worm。它于1998年2月转移到现在的这种付费排名模式,紧接着用Inktomi代替了WWW Worm提供免费搜索。GoTo和前面提到的Go(Infoseek)无关。 
9. Google
http://www.google.com/ 
Google是一家非常强调链接广泛度(link popularity)的搜索引擎,链接广泛度在其搜索结果的排名算法中份量很重。这对于在查询一些很一般的词时(比如“汽车”“旅游”等)非常好,可以得到比较有价值的结果,因为一般好的站点,人们链接的就多。 
10. HotBot
http://www.hotbot.com/ 
和AltaVista一样,HotBot也是因为它庞大的检索页面和许多的高级搜索特色成为搜索者喜爱的引擎。在多数情况下,HotBot 搜索结果的第一页来自Direct Hit服务(见上),后面的结果则来自Inktomi——它被许多搜索服务采用。HotBot的目录信息来自Open Directory(见下)。HotBot是Wired公司为进入搜索引擎市场于1996年5月发布的,Lycos在1998年10月买下了Wired Digital公司,但HotBot仍作为一个独立的搜索服务在运作。 
11. Iwon
http://www.iwon.com 
该公司的背景是全美电视网络CBS,iWon的分类目录由Inktomi自动生成,Inktomi也提供传统的机器搜索结果。在整个运作上,iWon与其他主要服务商都不同,它采用一种每天、每周和每月发布奖金的商业模式。1999年秋季开始正式运作。 
12. Inktomi 
http://www.inktomi.com/ 
最初,在加州大学伯克利分校有一个Inktomi搜索引擎。然后,开发人员使用相同的名字创立了自己的公司,并建立了一个新数据库,开始仅仅用来支持HotBot,现在Inktomi的检索数据库也同时支持着其他一些搜索服务。这些引擎服务都使用Inktomi同样的数据源,只是查询结果有所不同。对于一般用户无法直接查询Inktomi的数据库,它只对其合作伙伴开放,同时各家引擎在调用Inktomi的数据时采用了各自的算法和命令。 
13. LookSmart 
http://www.looksmart.com/ 
LookSmart是一个人工编辑的网站目录。除了本身是一个独立的服务外,LookSmart也为MSN Search、Excite和其他一些合作伙伴提供分类目录的内容。当LookSmart本身的数据库没有找到结果时,它使用AltaVista提供的搜索结果。LookSmart于1996年10月独立发布,接着由读者文摘(Reader’’s Digest)管理了一年,然后公司管理层又买回公司的控制权。 
14. Lycos 
http://www.lycos.com/ 
Lycos最初是一家搜索引擎,自己检索(Spider)网络。然后1999四月,它转向类似于雅虎的分类目录模式,它的主要分类信息来自于Open Directory,其次的结果来自Direct Hit或Lycos自身的数据。1998年10月,Lycos收购了其竞争对手HotBot,不过HotBot继续独立运作。 
15. MSN Search 
http://search.msn.com/ 
微软的MSN Search搜索服务是由LookSmart支持的一个分类目录,其他的搜索结果来自AltaVista,同时还整合了RealNames和Direct Hit的数据。MSN Search为Internet Explorer 5的用户提供了一种保存以前查询结果的独特方法。 
16. Netscape Search 
http://search.netscape.com/ 
Netscape Search的结果主要来自Open Directory和Netscape自己的“Smart Browsing”数据库,它在查询“正式”网站方面做得很好。其次的搜索结果来自于Google。在Netscape的Netcenter 门户站点上,也整合了其他许多的搜索引擎。 
17. Northern Light 
http://www.northernlight.com/ 
Northern Light是另一家网上研究人员喜爱的搜索引擎,它拥有互联网上最大之一的检索数据库,同时有按照主题归类文档的能力。Northern Light还拥有大量“特别的”文件数据,这些数据一般的搜索机器人(search engine spiders)很难检索到,这些特殊的文件来自很多数据源,包括新闻专线,杂志和内部数据库,查询这些文件是免费的,但是想阅读它们需要付费,最高收费$4,当然对于一般的公用信息不需付费。Northern Light于1997年8月开始对外服务。 
18. Open Directory 
http://dmoz.org/ 
The Open Directory使用义务编辑来分类网站,最初叫着NewHoo,1998年6月开始,1998年12月被Netscape收购,该公司保证任何人只要遵守一个开放许可协议,就能使用该目录的信息内容。Netscape本身是第一个许可协议,Lycos和AOL Search充分的使用了Open Directory的数据,同时AltaVista和HotBot也在他们的搜索结果中整合了Open Directory的结果。 
19. RealNames 
http://www.realnames.com/ 
RealNames系统比现有网站地址系统更方便的一个变通选择
20.sohu
搜狐设有独立的目录索引,并采用百度搜索引擎技术,提供网站、网页、类目、新闻、黄页、中文网址、软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。
21.中国搜索联盟
中国搜索联盟成立于2002年9月,由中国互联网新闻中心、慧聪国际共同发起的一个以搜索引擎应用为核心的开放型联合体,联盟号召各成员网站使用共同的搜索引擎,通过搜索引擎技术应用寻求共同有效的经营模式,整合优势资源真正实现资源共通共享,进而推动各成员的网站发展。
  经过一年多的发展,中国搜索联盟已经逐步发展壮大,成员包括中国网、新华网、国际在线、中国日报网、中青网、中国广播网在内的国家级新闻网站,千龙网、东方网、南方网、北方网、红网、四川新闻网在内的国内顶级区域门户网站,263等商业网站以及20家慧聪资深行业网站,并与新浪网、3721和全国近200家信息港结成紧密的战略性合作关系,成为目前国内最大的“搜索引擎服务平台”。
22.网易(163)搜索
在开发互联网应用、服务及其它技术方面,网易始终保持业界的领先地位,并取得了中国互联网业的多项第一:第一家中文全文检索,第一个大容量免费个人主页基地,第一个免费电子贺卡站,第一个网上虚拟社区,第一个网上拍卖平台。所有这些成绩将载入中国互联网发展的史册。
23.新浪搜索
新浪于2001年陆续推广出竞价排名、中国搜索联盟推荐、快速登录、推广增值服务、固定排名、港台北美三地网站推广、一点通、图片搜索排名、免费登录。
24.雅虎搜索
雅虎公司是一家全球性的互联网通讯、商贸及媒体公司。其网络每月为全球超过一亿八千万用户提供多元化的网上服务。雅虎是全球第一家提供互联网导航服务的网站,不论在浏览量、网上广告、家庭或商业用户接触面上,yahoo.com都居于领导地位,也是最为人熟悉及最有价值的互联网品牌之一,在全球消费者品牌排名中位居第38位。
雅虎还在网站上提供各种商务及企业服务,以帮助客户提高生产力及网络使用率,其中包括广受欢迎的为企业提供定制化网站解决方案的雅虎企业内部网;影音播放、商店网站存储和管理;以及其他网站工具及服务等。
25.百度搜索
百度一直以开发最符合中国人使用习惯的搜索引擎为己任,经过三年努力,百度搜索引擎已成为世界上最强大的中文搜索引擎。
  核心技术:超链分析
  超链分析技术,是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用,百度总裁李彦宏就是超链分析专利的唯一持有人。在学术界,一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。
  更大、更新、更快
  百度在中文互联网拥有天然优势,支持搜索1亿3千万中文网页,是世界上最大的中文搜索引擎。
并且,百度每天都在增加几十万新网页,对重要中文网页实现每天更新,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。百度在中国各地分布的服务器,能直接从最近的服务器上,把所搜索信息返回给当地用户,使用户享受极快的搜索传输速度。
  为中文用户度身定做
  百度深刻理解中文用户搜索习惯,开发出关键词自动提示:用户输入拼音,就能获得中文关键词正确提示。
百度还开发出中文搜索自动纠错;如果用户误输入错别字,可以自动给出正确关键词提示。
  百度快照是另一个广受用户欢迎的特色功能,解决了用户上网访问经常遇到死链接的问题:百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量应急网页。即使用户不能链接上所需网站时,百度为用户暂存的网页也可救急。而且通过百度快照寻找资料往往要比常规方法的速度快得多。
  百度还有其它多项体贴普通用户的功能,包括相关搜索、中文人名识别、简繁体中文自动转换、网页预览等。 百度已增加了专业的MP3搜索、Flash搜索、新闻搜索、信息快递搜索,并正在快速发展其它用户喜欢的搜索功能。百度搜索引擎,将发展为最全面的搜索引擎,为所有中文用户打开互联网之门。

搜索引擎优化(searchengineoptimization,简称SEO),与搜索引擎定位(SearchEnginePositioning)和搜索引擎排名(SearchEngineRanking)是同一种工作,指通过了解各类搜索引擎如何抓取互联网页面,如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。

搜索是除了电子邮件以外被用得最多的网络行为方式。通过搜索引擎查找是网络冲浪者寻找网上信息和资源的主要手段。搜索引擎营销已经成为网络营销最重要的组成部分。如何使自己的网站被主要的搜索引擎收录、然后获得较高的排名,成为网站建设者们绞尽脑汁的话题。

要想达到目的,你就得学会:

搜索引擎优化!
要了解搜索引擎优化,你需要了解下面几个方面的知识:

1)了解搜索引擎如何抓取网页和如何索引网页。

你需要知道一些搜索引擎的基本工作原理,各个搜索引擎之间的区别,搜索机器人(SErobot或叫webcrawler)如何进行工作,搜索引擎如何对搜索结果进行排序等等。

2)Meta标签优化。

主要包括主题(Title),网站描述(Description),和关键词(Keywords)。还有一些其它的隐藏文字比如Author(作者),Category(目录),Language(编码语种)等。

3)如何选取关键词并在网页中放置关键词。

搜索就得用关键词。关键词分析和选择是SEO最重要的工作之一。首先要给网站确定主关键词(一般在5个上下),然后针对这些关键词进行优化,包括关键词密度(Density),相关度(Relavancy),突出性(Prominency)等等。

4)了解主要的搜索引擎。

虽然搜索引擎有成千上万,但是对网站流量起决定作用的就那么几个。比如英文的主要有Google,Inktomi,Altavista等;中文的有百度,搜狐等。不同的搜索引擎对页面的抓取和索引、排序的规则都不一样。还要了解各搜索门户和搜索引擎之间的关系,比如Yahoo和AOL网页搜索用的是Google的搜索技术,MSN用的是Looksmart和OpenDirectory的技术。

5)主要的互联网目录。

Yahoo自身不是搜索引擎,而是一个大型的网站目录,OpenDirectory也不是,他们和搜索引擎的主要区别是网站内容的收集方式不同。目录是人工编辑的,主要收录网站主页;搜索引擎是自动收集的,除了主页外还抓取大量的内容页面。

6)按点击付费的搜索引擎。

搜索引擎也需要赢利,随着互联网商务的越来越成熟,收费的搜索引擎也开始大行其道。最典型的有Overture和百度,当然也包括Google的广告项目GoogleAdwords。越来越多的人通过搜索引擎的点击广告来定位商业网站,这里面也大有优化和排名的学问,你得学会用最少的广告投入获得最多的点击。

7)搜索引擎登录。

网站做完了以后,别躺在那里等着客人从天而降。要让别人找到你,最简单的办法就是将网站提交(submit)到搜索引擎。虽然免费已经不再是互联网(至少是搜索引擎)的主流-如果你的是商业网站,主要的搜索引擎和目录都会要求你付费来获得收录(比如Yahoo要299美元),但是好消息是(至少到目前为止)最大的搜索引擎Google目前还是免费,而且它主宰着60%以上的搜索市场。

8)链接交换和链接广泛度(LinkPopularity)。

网页内容都是以超文本(Hypertext)的方式来互相链接的,网站之间也是如此。除了搜索引擎以外,人们也每天通过不同网站之间的链接来Surfing(“冲浪”)。其它网站到你的网站的链接越多,你也就会获得更多的访问量。更重要的是,你的网站的外部链接数越多,会被搜索引擎认为它的重要性越大,从而给你更高的排名。所以,你得花很多精力去做和别人做交换链接。

在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。 
    所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。

     由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。

  Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。

  与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。

  随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan’s World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。

  Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。

  1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。

  1994年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo(Jerry Yang Alerts a Usenet group to the Yahoo Database ,1996年的Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture)

  1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

  Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。

  Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初是否第一个登台并不总是很重要。Infoseek的友善用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。

  1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。(注:元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。)

  DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。

  而Altavista的另一些新功能,则永远改变了搜索引擎的定义。

  AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

  然后到来的是Inktomi。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(注:Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购;inktomi于2002年12月23日被Yahoo收购)

  Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。

  1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。

  Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。

  在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。

  Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。

  Teoma 起源于1998年Rutgers大学的一个项目。Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。

  Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。

  Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索。

  Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。

  北大天网 是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。

  Baidu 2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。

   随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。


搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 
■ 全文搜索引擎 

  全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
  从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

■ 目录索引  

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
■ 元搜索引擎 (META Search Engine)
  
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
除上述三大类引擎外,还有以下几种非主流形式:
  1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
  2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
  3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。  
  由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。

  地理信息系统(GIS ,geographic information system)是随着地理科学、计算机技术、遥感技术和信息科学的发展而发展起来的一个学科。在计算机发展史上,在计算机发展史上,计算机辅助设计技术(CAD)的出现使人们可以用计算机处理象图形这样的数据,图形数据的标志之一就是图形元素有明确的位置坐标,不同图形之间有各种各样的拓扑关系。简单地说,拓扑关系指图形元素之间的空间位置和连接关系。简单的图形元素如点、线、多边形等;点有坐标(x, y);线可以看成由无数点组成,线的位置就可以表示为一系列坐标对(x1, y1),(x2, y2),……(xn, yn);平面上的多边形可以认为是由闭合曲线形成范围。图形元素之间有多种多样的相互关系,如一个点在一条线上或在一个多边形内,一条线穿过一个多边形等等。在实际应用中,一个地理信息系统要管理非常多、非常复杂的数据,可能有几万个多边形,几万条线,上万个点,还要计算和管理它们之间的各种复杂的空间关系……。

  地理信息系统是将计算机硬件、软件、地理数据以及系统管理人员组织而成的对任一形式的地理信息进行高效获取、存储、更新、操作、分析及显示的集成。
  
  我国GIS的发展较晚,经历了四个阶段,即起步(1970-1980)、准备(1980-1985)、发展(1985-1995)、产业化(1996以后)阶段。GIS已在许多部门和领域得到应用,并引起了政府部门的高度重视。从应用方面看,地理信息系统已在资源开发、环境保护、城市规划建设、土地管理、农作物调查与结产、交通、能源、通讯、地图测绘、林业、房地产开发、自然灾害的监测与评估、金融、保险、石油与天然气、军事、犯罪分析、运输与导航、110报警系统公共汽车调度等方面得到了具体应用。
  国内外已有城市测绘地理信息系统或测绘数据库正在运行或建设中。一批地理信息系统软件已研制开发成功,一批高等院校已设立了一些与GIS有关的专业或学科,一批专门从事GIS产业活动的高新技术产业相继成立。些外,还成立了"中国GIS协会"和"中国GPS技术应用协会"等。

1 什么是GIS?
地理信息系统 (GIS, Geographic Information System) 是一种基于计算机的工具,它可以对在地球上存在的东西和发生的事件进行成图和分析。 GIS 技术把地图这种独特的视觉化效果和地理分析功能与一般的数据库操作(例如查询和统计分析等)集成在一起。这种能力使 GIS与其他信息系统相区别,从而使其在广泛的公众和个人 企事业单位中解释事件、预测结果、规划战略等中具有实用价值 。

2 一个GIS的组成
GIS 由五个主要的元素所构成: 硬件、软件、数据、人员和方法。
硬 件
硬件是GIS所操作的计算机。今天,GIS软件可以在很多类型的硬件上运行。从中央计算机服务器到桌面计算机,从单机到网络环境。
软 件
GIS软件提供所需的存储、分析和显示地理信息的 功能和工具。主要的软件部件有:
* 输入和处理地理信息的工具
* 数据库管理系统(DBMS)
* 支持地理查询、分析和视觉化的工具
* 容易使用这些工具的图形 化界面(GUI)
数 据
一个GIS系统中最重要的部件就是数据了 。地理数据和相关的表格数据可以自己采集或者从商业数据提供者处购买。GIS将把空间数据和其他数据源的数据集成在一起,而且可以使用那些被大多数公司用来组织和保存数据的 数据库管理系统,来管理空间数据。
人 员
GIS技术如果没有人来管理系统和制定计划应用 于实际问题,将没有什么价值。GIS的用户范围包括从设 计和维护系统的技术专家,到那些使用该系统并完成他们每天工作的人员。
方 法
成功的GIS系统,具有好的设计计划和自己的事务 规律,这些是规范而且对每一个公司来说具体的操作实践又是独特的。

3 GIS如何工作
GIS就是用来存储有关世界的信息,这些信息是可以通过地 理关系连接在一起的所有主题层集合。这个简单却非常有力和通用的概念,对于解决许多真实世界的问题具有无价的作用,这些问题包括:跟 踪传输工具、记录计划的详细资料,模拟全球的大气循环等。
地理参考系统
地理信息包含有明确的地理参照系统,例如经度和纬度坐标,或者是国家网格坐标。也可以包含间接的地理参照系统, 例如地址、邮政编码、人口普查区名、森林位置识别、路名等。一种叫做地理编码的自动处理系统用来从间接的参照系统,如地址描述,转变 成明确的地理参照系统,如多重定位。这些地理参考系统可以使你定位一些特征,例如商业活动、森林位置,也可以定位一些事件,例如地震 ,用于做地表分析。
矢量和栅格模式
地理信息系统工作于两种不同的基本地理模式–矢量模式和栅格模式。
在矢量模式中,关于点、线和多边形的信息被编码并以x、y坐 标形式储存。一个点特征的定位,例如一个钻孔,可以被一个单一的x、y坐标所描述。线特征,例如公路和河流,可以被存储于一系列的点坐 标。多边形特征,例如销售地域或河流聚集区域,可以被存储于一个闭合循环的坐标系。矢量模式非常有利于描述一些离散特征,但对连续变 化的特征,例如土壤类型或赶往医院的开销等,就不太有用。
栅格模式发展为连续特征的模式。栅格图象包含有网格单元,有点像扫描的地图或照片。不管是矢量模式还是栅格模式,用来存储地理数 据,都有优点和缺陷。现代的GIS都可以处理这两种模式 。


4 GIS 的任务
一般来说,GIS有以下五个过程 或任务:
* 输入
* 处理
* 管理
* 查询和分析
* 可视化
输入
在地理数据用于GIS之前,数据必须转换成适当的数字格式。从图纸数据转 换成计算机文件的过程叫做数字化。对于大型的项目,现代GIS技术可以通过扫描技术来使这个过程全部自动化,对于较小的项目,需要手工数字化(使用数字化桌) 。
目前,许多地理数据已经是地理信息系统兼容的数据格式。这 些数据可以从数据提供商那里获得并直接装入GIS中。
处理
对于一个特殊的GIS项目来说,有可能需要将数据转 换成或处理成某种形式以适应你的系统。例如,地理信息适用于不同的比例尺(街道中心线文件的比例尺也许是1:100,000;人口边界是 1:50,000;邮政编码是1:10,000)。在这些信息被集成以前,必须转变成同一比例尺。这可以是为了显示的目的而做的临时变换,也可以是为 了分析所做的永久变换。地理信息系统技术提供了许多工具来处理 空间数据和去除不必要的数据。
管理
对于小的GIS项目,把地理信息存储成简单的文件就 足够了。但是,当数据量很大而且数据用户数很多时,最好使用一个数据库管理系统(DBMS),来帮助存储、组织和管理数据。一个数据库管 理系统DBMS就是用来管理一个数据库-一个数据的完整收集–的计算机软件。
有许多不同的DBMS设计,但在GIS中,关系数据库管理系统的设计是最有用的。在关系数 据库系统设计中,概念上数据都被存储成一系列的表格。不同表格中的共同字段可以把它们连接起来。这个令人惊讶的简单设计被广泛地应用 ,主要是由于它的灵活性以及在使用GIS和不使用GIS时,都被广泛地采用。
查询和分析
一旦你拥有一个包含你的地理信息的多功能的GIS系 统,你可能开始提出象下面这样的一些简单问题:
这个角落上的这块土地属于谁?
两个地方之间的距离是多少?
工业用地的边界在哪里?
有关分析的问题可能是:
适 合于盖新房子的所有地点在哪里?
生长橡树的最好的土壤类型是什么?
如果我要在这里建一条高速公路,它将如何影响交通?
GIS提供简单的鼠标点击查询功能和复杂的分析工具,为管 理者和类似的分析家提供及时的信息。当你分析地理数据用于寻找模式和趋势,或提出"如果……怎么样"设想时,地理信息系统技术实际上正在被使用。现代的GIS具有许多有力的分析工具,但是有两个是特别重要的。
1. 接近程度分析
在这片水域周围100米范围内有多少房子?
这家商店附近10公里范围内共有多少消费者?
在这口井周围500米范围 内紫花苜蓿这种植物占多大面积?
为了回答这些问题,GIS技术使用一个叫做缓冲的处 理方法,来确定特征间的接近关系。
2. 覆盖范围分析
不同数据层的综合方法叫做覆盖。简单的说,它可以是一个可视化操作,但是分析操作需要一个或多个物理连接起来 的数据层。覆盖,或空间连接,可以将税收数据与土地、斜坡、植被或土地所有者等集成在一起。
可视化
对于许多类型的地理操作,最终结果最好是以地图或图形来显示。图件对于存储和传递地理信息是非常有效的。制图者已经生产了上千年 的地图,GIS为扩展这种制图艺术和科学提供了崭新的和 激动人心的工具。地图显示可以集成在报告、三维观察、照片图象和例如多媒体的其他输出中。


5 GIS相关技术
GIS与其他几种信息系统密切相关,但由于其处理和分析地 理数据的能力使其与它们相区别。尽管没有什么硬性的和快速的规则来给这些信息系统分类,但下面的讨论可以帮助区分GIS和桌面制图、计算机辅助设计CAD、遥感、DBMS、以及 GPS技术。
桌面制图
桌面制图系统用地图来组织数据和用户交互。这种系统的主要目的是产生地图:地图就是数据库。大多数桌面制图 系统只有及其有限的数据管理、空间分析以及个性化能力。桌面制图系统在桌面计算机上进行操作,例如PC机,Macintosh以及小型UNIX工作站 。
计算机辅助设计CAD
计算机辅助设计(CAD)系统促进了产生建筑物和基本建设的设计和规划。这种设计需要装配固有特征的组件来产 生整个结构。这些系统需要一些规则来指明如何装配这些部件,并具有非常有限的分析能力。CAD系统已经扩展可以支持地图设计,但管理和分 析大型的地理数据库的工具很有限。
遥感和GPS
遥感是一门使用传感器对地球进行测量的科学和技术,例如,飞机上的照相机,全球定 位系统(GPS)接收器,或其他设备。这些传感器以图象的格式收集数据,并为利用、分析和可视化这些图象提供专门的功能。由于它缺乏强大 的地理数据管理和分析作用,所以不能叫作真正的GIS。
DBMS数据库管理系统
数据库管理系统专门研究如何存储和管理所有类型的数据,其中包括地理数据。DBMS使存储和查找数据最优化, 许多地理信息系统为此而依靠它。相对于GIS而言,它们没有分析和可视化的工具。


6 GIS可以做什么
进行地理信息查询和分 析
GIS搜索数据库并进行地理信息查询的能力,节约了 许多公司数以百万计的美元。GIS可以:
* 缩短回答客户请求的时间
* 找到适合于开发的土地
* 在粮食、土壤和天气之间找寻相关关系
* 电气线路故障定位
房地产经纪人可以用GIS在一定的区域内寻找满足下列条 件的所有房屋:瓦盖的屋顶、 五个房间,并可列出它们的所有特点。
查询可以通过增加准则来进一步细化:房价必须每平方英尺少于100美元。还可以列出这些房屋离学 校在一定的距离之内。
改进机构集成
许多采用了地理信息系统的机构发现其主要效益之一是改进了 它们自己的机构和资源的管理。由于GIS具有将数据集合 和地理信息链接起来的能力,促使它们之间共享和交流局部信息。通过产生可共享的数据库,一个部门可从另一个部门的工作中得到好处,这 是由于数据只需采集一次,但应用多次。
由于个人和部门之间的通讯在增加,冗余被减少,生产力提高,整体组织效率改进。因此,在一个有效的公司里,用户和基本建设数据库 可以集成在一起,这样,当需要进行维护时,受影响的用户会得到计算机发出的信件。
做出好的决定
一个古老的格言"好的信息导致好的决定",对于GIS和其他信息系统来说都是正确的。然而,一个地理信息系统(GIS),并不是一个自动决策系统,而是一个查询、分析和 支持作出决策处理的图件数据工具。GIS技术已经被用于 帮助完成一些任务,例如:为计划调查提供信息,帮助解决领土争端,以最小化视觉干扰为原则设置路标。
GIS可以用于帮助一个新房址的选定,以使其受环境影响最 小,在低风险区域,离人口聚集地近。可以以地图和附加报告的方式简洁而清晰的提供这个信息,使决策者集中精力于实际的问题,而不是花 时间去理解数据。由于GIS结果能够很快地获得,多个假 想的结果可以被高效地评价。
制图
图件在GIS中占有重要的一席之地。GIS的制图方法比传统的人工或自动绘图方法要灵活得多。 她开始于数据库的创建。已经存在的纸张图件可以进行数字化,并可以把计算机兼容的信息转换到地理信息系统中。以GIS为基础的图形数据库是可以延续的,比例尺也不受限制 。图件可以以任何地点为中心,比例尺任意,使用突出效果的特殊字符有效地显示所选择的信息。
地图集和地图丛书的特征可以用计算机 程序编码,并与最终的数据库产品相比较。在其他GIS中 使用的数字化产品还可以来自数据库的简单拷贝。在一个大的组织机构中,地形数据库可以被其他部门用作参考构架。


7 GPS数据
What Map Data Do I Need?
If you are unfamiliar with map data, think first about how you want to use map data. Many project needs are met with the following common map data types. Then explore these links to learn more about map data!
Base Maps–Include streets and highways; boundaries for census, postal, and political areas; rivers and lakes; parks and landmarks; place names; and USGS raster maps.
Business Maps and Data–Include data related to census/demography, consumer products, financial services, health care, real estate, telecommunications, emergency preparedness, crime, advertising, business establishments, and transportation.
Environmental Maps and Data–Include data related to the environment, weather, environmental risk, satellite imagery, topography, and natural resources.
General Reference Maps–World and country maps and data that can be a foundation for your database.
How Do I Get Map Data?
Fortunately, volumes of existing geographic data are readily available. Through the ArcData Publishing Program, ESRI has established a partnership with leading commercial data vendors to provide a wealth of information in a plug-n-play format for use with ArcView GIS. ESRI’s GIS Store and ArcData Online both offer a convenient way to get the most popular geographic data.
And, a variety of useful geographic data come bundled with ArcView GIS to help you get started quickly.
These data sets can be used as the foundation for your GIS projects or to supplement your existing data.


8 生活中的GIS
Making GIS Data Work for You
In today’s global community, the more information you have at your fingertips, the easier it is to make an informed decision. In today’s high-tech world, information comes in many different ways, from company reports and statistics from down the hall to digital photos and multimedia from across the world.
Information can be overwhelming and the need for timely decisions calls not only for innovative ways to access accurate, up-to-the minute information, but also tools to help present the information in useful ways.
A geographic information system or GIS allows you to bring all types of data together based on the geographic and locational component of the data.
But unlike a static paper map, GIS can display many layers of information that is useful to you.
You will be able to integrate, visualize, manage, solve, and present the information in a new way.
Relationships between the data will become more apparent and your data will become more valuable.
GIS will give you the power to create maps, integrate information, visualize scenarios, solve complicated problems, present powerful ideas, and develop effective solutions like never before.
GIS is a tool used by individuals and organizations, schools, governments, and businesses seeking innovative ways to solve their problems.

1. RFC 822邮件格式
  RFC 822定义了用于电子邮件报文的格式。即RFC 822定义了SMTP、POP3、IMAP以及其它电子邮件传输协议所提交、传输的内容。RFC 822定义的邮件由两部分组成:信封和邮件内容。   信封包括与传输、投递邮件有关的信息。
  邮件内容包括标题和正文。

2. SMTP,Simple Mail Transfer Protocol,简单邮件传输协议
  它是Internet上传输电子邮件的标准协议,用于提交和传送电子邮件,规定了主机之间传输电子邮件的标准交换格式和邮件在链路层上的传输机制。
  SMTP通常用于把电子邮件从客户机传输到服务器,以及从某一服务器传输到另一个服务器。

3. POP3,Post Office Protocol,邮局协议,目前是第3版
  它是Internet上传输电子邮件的第一个标准协议,也是一个离线协议。它提供信息存储功能,负责为用户保存收到的电子邮件,并且从邮件服务器上下载取回这些邮件。
  POP3为客户机提供了发送信任状(用户名和口令),这样就可以规范对电子邮件的访问。

4. IMAP4,Internet Message Access Protocol,网际消息访问协议,目前是第4版
  当电子邮件客户机软件在笔记本计算机上运行时(通过慢速的电话线访问互联网和电子邮件),IMAP4比POP3更为适用。使用IMAP时,用户可以有选择地下载电子邮件,甚至只是下载部分邮件。因此,IMAP比POP更加复杂。

5. MIME,多用途的网际邮件扩展
  Internet上的SMTP传输机制是以7位二进制编码的ASCII码为基础的,适合传送文本邮件。而声音、图象、中文等使用8为二进制编码的电子邮件需要进行ASCII转换(编码)才能够在Internet上正确传输。
  MIME增强了在RFC 822中定义的电子邮件报文的能力,允许传输二进制数据。MIME编码技术用于将数据从8位都使用的格式转换成数据使用7位的ASCII码格式。

  1、四部委联合发出“反垃圾邮件通告”

  2004年1月30日,由公安部、教育部、信息产业部和国务院新闻办部委联合向全国各省的下属单位发出了《关于开展垃圾电子邮件专项治理工作的通知》,专项治理工作中明确电子邮件服务单位应当履行反垃圾电子邮件的责任,在建设电子邮件设施的同时,应采取反垃圾电子邮件的措施。

  2、中国反垃圾邮件高峰论坛在北京举行

  2004年4月23日至24日,由中国互联网协会主办的“2004中国反垃圾邮件高峰论坛”在北京友谊宾馆举行。电子邮件发明人David H.Crocker先生、国际垃圾邮件黑名单组织(Spamhaus)专家 Richard Cox先生等国外反垃圾邮件专家,以及来自国务院信息化办公室、国务院新闻办公室、信息产业部、公安部等国家部委的专家领导和国内主要邮件服务提供商、反垃圾邮件技术提供商等专业人士200余人出席。本次高峰论坛包括中国反垃圾邮件立法研讨会、中国反垃圾邮件国际合作研讨会和中国反垃圾邮件技术及产品研讨会。垃圾邮件的定义,反垃圾邮件立法等问题成为大会关注的热点问题。

  3、中国互联网大会国际反垃圾邮件高层论坛成为焦点

  9月1日,2004中国互联网大会暨2004亚太数字科技博览会特色论坛在北京召开。国际反垃圾邮件高层论坛成为媒体和公众关注的焦点。国务院信息化工作领导小组、信息产业部、公安部等相关部门领导,美国联邦贸易委员会官员和来自国际电信联盟、经济合作与发展组织、亚太反垃圾邮件联盟等国际组织的专家,与美国著名的E-BAY、Microsoft、AOL、YAHOO等公司,及中国主要的网络服务提供商、电子邮件服务提供商、相关的软件生产制造商等各界专家代表共聚本次论坛,围绕政府、行业组织、从业单位如何开展高效的协同治理工作,研究目前国内外在反垃圾邮件反面的立法、管理和技术等多方面的经验、教训和存在的问题,探索反垃圾邮件管理重点、前沿技术,研究全球合作治理垃圾邮件的新模式和方法。会上,中国互联网协会反垃圾邮件协调小组还公布了“第三次反垃圾邮件调查报告”和对目前反垃圾邮件技术的分析报告。最后,eBay、微软、AOL和雅虎跟中国互联网协会签署了一份谅解备忘录,各方表示将在执法、技术和消费者教育领域加强合作,携手共同抵制商业垃圾和欺诈性邮件的传播,力求创建一个更加安全的计算机应用环境。

  4、中国互联网协会发布公共电子邮件服务规范

  中国互联网协会组织各网络服务提供者、电子邮件服务商起草制订的《中国互联网协会互联网公共电子邮件服务规范》(试行),历时数月,经过多次讨论修改,终于在2004年9月2日出台了。该规范刚刚公布公布就有一大批国内主要的电子邮件服务商表示自愿遵守规范。这是中国互联网行业在互联网业务的规范和健康发展中迈出的重要一步,在全球互联网从业者中也属于突破性的创举。中国互联网协会作为业界的民间组织,积极倡导反垃圾邮件,营造绿色网络空间。2002年11月1日,中国互联网协会“反垃圾邮件协调小组”正式成立,推出了《中国互联网协会反垃圾邮件规范》,以行业自律的方式开展反垃圾邮件工作,2003年6月,组织各成员单位开展了关闭“开放转发”功能、清除网站上的群发软件和垃圾邮件发送软件自查工作;自2003年8月8日以来,先后多次公布了“境内外垃圾邮件服务器地址名单”。

  5、中国反垃圾邮件中心(www.spam.com.cn)网站开通

  2004年9月3日由中国互联网协会与北京光芒在线(Comon)网络科技有限公司联合推出的中国首个反垃圾邮件专业门户网站——中国反垃圾邮件中心(www.spam.com.cn)开通。该网站是一个集电子邮件的资讯信息、垃圾邮件投诉举报、垃圾邮件黑名单查询等功能于一体的综合信息服务平台。不仅可以实时在线的查询IP地址在国内外150多家反垃圾邮件组织的黑名单状况,接受社会各方面对垃圾邮件的投诉和举报,提供简单实用的反垃圾邮件技巧,还可以帮助国内的企事业单位提供解决垃圾邮件黑名单解封通道的服务。网站开通以来引起了社会和媒体的广泛关注,包括CCTV在内的数十家媒体都做了相关报道。目前中国反垃圾邮件中心网站的日均访问量在4000人次左右,最高访问量达到了10000多人次,同时还有大量来自美国、英国、澳大利亚、中国台湾、中国香港等海外国家和地区的用户,累计接到电话、QQ、E-mail、论坛等不同方式的咨询和投诉数万人次。未来,中国反垃圾邮件中心将再接再厉,以更加务实的态度,为反垃圾邮件事业推出更多更好的服务。

  6、G级大容量邮箱风靡中华大地,竞争激烈网民得利

  2004年4月1日,这个普通的愚人节对于全球的电子邮件用户来说绝非平常,这一天注定要被写入电子邮件发展史,全球领先的搜索引擎提供商Google推出了1G的超大容量免费邮箱,大家在怀疑的同时不得不不承认这个天上掉下来的馅饼似乎太突然,可是这就是事实。继Yahoo和Gmail推出大容量邮件后,中国最大的电子邮件服务提供商——网易率先发动了免费邮箱扩容的热浪,首先是将其旗下的126.com邮箱升级至260M,然后又螺旋式发展到2G,自然同为门户的Sina、Sohu等服务商也不甘示弱,纷纷推出了各自的G级大容量邮箱。鹬蚌相争,渔翁得利,电子邮件服务商为了发展和稳定用户推出更加优质的服务和产品,使得我们每一个网民都可以吃上美好的免费大餐。

  7、雅虎中国发动电子邮件联盟

  10月19日,全球领先的互联网巨擎雅虎中国公司对外宣布,该公司已经与金山、光通、当当、携程、天极、西陆等国内12家知名网络公司签订了战略合作伙伴协议,与这些网站共同为用户提供包括1000兆免费电邮在内的互联网产品与服务。是雅虎中国继今年推出1G电邮后,在国内千万网民中发起的新一轮声势浩大的千兆电邮普及"风暴".同时,这种门户与专业网站在网络基础应用产品领域的合作也开创了国内互联网行业的先河,对此业界的评价褒贬不一。

  8、电子邮箱成为CNNIC中国热点调查对象

  2004年11月16日,中国互联网络信息中心(CNNIC)在京发布第二次《中国互联网络热点调查报告》。电子邮箱成为了本次调查的热点之一。这也许是网易、雅虎、新浪等门户网站竞相进行疯狂扩容战果初现。本次调查数据显示,电子邮箱已经有了长足进展并且还有巨大的市场上升空间。电子邮箱这个曾经的新鲜名词已经与我们的生活、工作、学习越来越密不可分。在电子邮箱的容量和用户都爆炸式发展的状况下,如何将电子邮件这一热点变为金点也许是目前运营商正在考虑的难题。

  9、反垃圾邮件产品如雨后春笋,发展空间巨大!

  泛滥的垃圾邮件也使得中国的反垃圾邮件市场日益火爆,反垃圾邮件蕴藏着巨大的商机,据资料显示,全球有150多家厂商向市场推出反垃圾邮件产品和服务,而国内也有40余家企业切入了反垃圾邮件这块蛋糕。据统计,2004 年中国的反垃圾邮件市场达到1亿元人民币左右。Ferris预计,到2008年,全球反垃圾邮件市场的容量才能达到10亿美元,而中国是垃圾邮件的重灾区,看来这一市场还有巨大的发展空间。

  10、企业邮箱再现热度,未来3年会高增长

  近半年以来,几大门户网站以及网络服务商开始重拾“企业邮箱”业务,纷纷推出了升级之后的新服务。在日前召开的第三届互联网大会上,新浪、263、35互联等服务商都将各自的企业邮箱业务介绍摆放在明显位置,并对企业邮箱的未来提出了乐观畅想,这似乎预示着“企业邮箱”正成为继“搜索业务”之后网络服务商的下一桶金。有人预测到2008年,中国将有超过50%的企业使用企业邮箱,整个企业邮箱市场规模将达到50亿元!作为互联网上的第一大应用的电子邮件,企业邮箱在电子邮件的细分市场中是否能够成为互联网经济的下一桶金?我们正翘首以待。

  电子邮件与我们的生活不可分离,反垃圾邮件更是与我们息息相关,相信只有大家携起手来,通过行业自律,建立电子邮件规范的服务机制,才能共同促进电子邮件服务健康发展!

电子邮件的诞生

据电子邮件的发明人雷.汤姆林森(Ray Tomlinson)回忆道,电子邮件的诞生是在1971年秋季(确切的时间已经无法考证),当时已经有一种可传输文件的电脑程序以及一种原始的信息程序。但两个程序存在极大的使用局限——例如:使用信息程序的人只能给接收方发送公报,接收方的电脑还必须与发送方一致。

发明电子邮件时,汤姆林森是马萨诸塞州剑桥的博尔特.贝拉尼克.纽曼研究公司(BBN)公司的重要工程师,当时,这家企业受聘于美国军方,参与Arpanet网络(互联网的前身)的建设和维护工作。汤姆林森对已有的传输文件程序以及信息程序进行研究,研制出一套新程序,它可通过电脑网络发送和接收信息,再也没有了以前的种种限制。为了让人们都拥有易识别的电子邮箱地址,汤姆林森决定采用@符号,符号前面加用户名,后面加用户邮箱所在的地址。电子邮件由此诞生。

 

电子邮件的30年发展历程

虽然电子邮件是在70年代发明的,它却是在80年才得以兴起。70年代的沉寂主要是由于当时使用Arpanet网络的人太少,网络的速度也仅为目前56Kbps标准速度的二十分之一。受网络速度的限制,那时的用户只能发送些简短的信息,根本别想象现在那样发送大量照片;到80年代中期,个人电脑兴起,电子邮件开始在电脑迷以及大学生中广泛传播开来;到90年代中期,互联网浏览器诞生,全球网民人数激增,电子邮件被广为使用。

    电子邮件的工作过程遵循客户-服务器模式。每份电子邮件的发送都要涉及到发送方与接收方,发送方式构成客户端,而接收方构成服务器,服务器含有众多用户的电子信箱。发送方通过邮件客户程序,将编辑好的电子邮件向邮局服务器(SMTP服务器)发送。邮局服务器识别接收者的地址,并向管理该地址的邮件服务器(POP3服务器)发送消息。邮件服务器识将消息存放在接收者的电子信箱内,并告知接收者有新邮件到来。接收者通过邮件客户程序连接到服务器后,就会看到服务器的通知,进而打开自己的电子信箱来查收邮件。

     通常Internet上的个人用户不能直接接收电子邮件,而是通过申请ISP主机的一个电子信箱,由ISP主机负责电子邮件的接收。一旦有用户的电子邮件到来,ISP主机就将邮件移到用户的电子信箱内,并通知用户有新邮件。因此,当发送一条电子邮件给一另一个客户时,电子邮件首先从用户计算机发送到ISP主机,再到Internet,再到收件人的ISP主机,最后到收件人的个人计算机。

     ISP主机起着“邮局”的作用,管理着众多用户的电子信箱。每个用户的电子信箱实际上就是用户所申请的帐号名。每个用户的电子邮件信箱都要占用ISP主机一定容量的硬盘空间,由于这一空间是有限的,因此用户要定期查收和阅读电子信箱中的邮件,以便腾出空间来接收新的邮件。

     电子邮件在发送与接收过程中都要遵循SMTP、POP3等协议,这些协议确保了电子邮件在各种不同系统之间的传输。其中,SMTP负责电子邮件的发送,而POP3则用于接收Internet上的电子邮件。

电子邮箱大事记

2000年互联网寒冬来临,各大门户纷纷停止免费邮箱注册,限制容量,限制附件大小,缩减服务。

2001年3月,263开始提供面向个人的20M专递邮件服务;

2001年7月,263全面推出个性化系列收费信箱,并且把信箱扩容到50M。

2001年8月3日,新浪网宣布从9月15日起,停止对用户提供50M免费电子邮箱的服务,同时把以前的50M免费邮箱压缩到5M。

2001年8月16日,新浪网推出收费的VIP电子邮箱服务。甚至有些人倡议所有提供免费电子邮箱服务的服务商联合起来,废除免费制度。

2001年8月17日,搜狐推出新一代免费电子邮箱——“搜狐闪电邮件”,与收费邮箱大行其道。

2002年3月18日,263网络集团宣布将从2002年5月21日关闭免费电子邮箱,只提供收费邮件服务。263还将提供跨手机平台收发邮件服务、防病毒等应用功能。


2003年4月16日,中华网又宣布为用户提供代表中国人身份的终身免费电子邮箱@mail.china.com;

2003年4月28日新浪对外宣布免费邮箱扩容为9兆。

2003年6月新浪网免费电子邮箱再次全面扩容至30兆。

2003-8月28日,网易推出全国容量最大的超级50M免费邮箱,同时支持反病毒,反垃圾邮件和手机收发邮件等全新功能。

2004年4月,GOOGLE宣布推出1G的免费邮箱。

2004年7月,雅虎中国在北京宣布推出容量为1G的免费电子邮箱。