“没有良好过滤的长尾不过是噪音”(a Long Tail without good filters is just noise)是Chris Anderson在著名的“长尾”一文中提出的核心观点。最近,Anderson又在自己的Blog上发挥这个观点,说过滤器分为两种,杂志的编辑(他本人是Wired杂志的主编)所扮演的角色是“前过滤”(pre-filter),google这样的搜索引擎扮演的作用是“后过滤”(post-filter)。

比起书籍、报纸、杂志、广播、电视,互联网是个标准的大“长尾”。但是我们不要忘了,对于一个书报编辑来说,如果他准备开门办报,接受投稿,那么他首先接触的是一个充满噪音的长尾。他要披沙拣金,从来稿中挑选出“值得刊登”的部分。这样他就是一个稿件的过滤器;如果他受不了自由来稿的噪音,准备办一个同仁刊物,那么他首先要做一个撰稿人的过滤器。所有这些过滤都是“前过滤”。

回想搜索引擎的发展,也经历过这个“前过滤”的阶段。直到今天,GoogleYahoo!都还保留了各自的网页目录(directory)。你可以在线提交你的网址,然后人工编辑审核后加入目录。

就我的使用经验,早年,我会对机器搜索结果持保留态度,而对人工的网页目录充满好感。但是Google的出现改变了这一切。

Google的PageRank技术把网页上添加的超级链接看作一个人工的前过滤工作——你链接了某个网页,表明你认为这个网页重要。把这千千万万这样的链接构成的前过滤资料进行后过滤处理——Google说要求解5亿个变量和20亿个词汇组成的方程——大家都认为重要的网页就会出现在搜索结果的前列,而你要找的,绝大多数情况下也是大家认为最重要的,使用经验表明,一般在前十个结果中就有你所要的。

同样的道理出现在桌面搜索引擎上。以前,我们靠精心建立的文件夹来组织硬盘中的资料。现在,Google、微软、百度的桌面搜索软件告诉我们,不必了。搜索硬盘中的文件也像搜索互联网一样简单。前过滤向后过滤转变。

Gmail的口号是“搜索,不用整理”,是同样的道理。

前过滤和后过滤在技术上不同,在知识产权法上也不同。尤其是对于音乐和电影。在RIAA和MPAA的步步紧逼下,前过滤的网上音乐电影搜索引擎,都已经死翘翘了。中国的例子是ChinaMP3案,手工链接一首他人拥有版权的歌曲构成侵权,但如果是后过滤呢?百度一搜都在提供这样的服务。Grokster案后,音乐后过滤,走向何方?

随着越来越多的电视台上网,视频搜索也将成为大热门。目前,GoogleYahoo!都已经发布了自己的视频搜索引擎。不过Google和Yahoo!的视频搜索都很难搜出可以直接播放的视频。比如美国最高法院首席大法官Rhenquist发烧住院的新闻,在CBS的网站上可以直接看到视频,但在Google Video上却搜索不到,可能就是因为版权的障碍。

视频搜索对于自己拥有版权的AOL更有优势。据报道,AOL即将发布自己的视频搜索引擎,而AOL拥有超过1,5000条自有版权的视频材料,来自时代华纳等单位。

不过,更令人振奋的是PBS,从9月6日开始,PBS将在自己的网站上用CC协议发布电视节目。这将不但是搜索引擎,也是互联网用户的福音。


评论

该日志第一篇评论

发表评论

评论也有版权!