2006年03月15日

尝试用自然语进行搜索

作者:iqst  转载请注明出处 http://blog.donews.com/iqst  2005.10

       随着互联网的发展,互联网上的信息与资料也在呈几何级数的速度猛增,日益充实的信息资源,让我们的搜索过程,有可能变得更加简单自如。

      我想大家已经习惯了用空格去搜索,比如“新款手机”我们会习惯在它们中间加上一个空格变成“新款 手机”,为什么要这样呢?因为以“新款手机”作为关键词的话,限制似乎过于严格,只有严格包含这个词的网页才会被搜索到,而如果在其间加上一个空格,那么只要网页上含有“新款”“手机”这两个词就可以被搜索到,而这两个词不一定要紧挨着。这其实是一种妥协,我们降低了搜索质量来换取更多的搜索数量,尽管在有些情况下搜索质量并没有明显的下降。

       从更深层次的原因来看,这恰恰反映了信息资源并不十分丰富,如果我们坚持用“新款手机”进行搜索的话,就会冒着搜索结果很差的风险(不过在这个例子里,你用“新款手机”进行搜索结果也很好!)。
但在今天,我觉得相对来说,互联网信息资源已经比较丰富了,起码和几年前比是这样子的,那么我们是不是可以拿起我们的“尊严”,不在妥协,怎么想的就怎么去搜,我想在某些方面,我们可以这么去做了,时机已经成熟。

       比如在搜索缩写词含义这个方面来说,还是举个例子吧,“WAP是什么意思”,当我们不知道WAP是什么意思的时候,我们的脑海里就会出现“WAP是什么意思”这样的句子,那么我们用什么方式来搜索的?“WAP 解释”?“WAP 缩写”?“WAP 意思是”?“WAP 是指”?对,你选的这些关键词没错,都很好,但我们为什么那么迁就搜索引擎呢,我为什么就不能把“WAP是什么意思”作为关键词呢?如果在几年前,我可以马上告诉你,没戏,如果你这么搜的话,什么也搜不到,不过现在不一样了,互联网发展了,网民多了,和你有同样问题的人也许成千上万(我突然联想到新浪的爱问,和百度的知道),他们会在各种文章或bbs帖子中提到“WAP是什么意思”,如此丰富的信息资源,你用“WAP是什么意思”作为关键词完全没问题,而且搜索质量绝对不会比前面列举的那几个关键词差。

       为什么会是这样,是因为搜索引擎进步了,技术有了创新?可以支持自然语搜索了?我看不是,即使搜索引擎不作任何改进,你今天用自然语的搜索结果也会好于5年前用自然语的搜索结果。那是为什么,还是我的那个个人观点:信息资源丰富了,长一些的关键词也可以得到好结果了!

      那么最后小结一下,到底什么样的问题适合用自然语作为关键词进行搜索呢?太具体了我也说不清,只是有个小技巧大家可以用一下:如果你要找的东西,或者你遇到的问题,其他人也会遇到,而且为数不少,那么请你大胆的试试自然语搜索吧!有朋友可能会说,你为什么非要用自然语进行搜索呢,要输入那么多的字,不如用空格加短关键字来得方便哦。的确,输入长长的自然语的确有些麻烦,不过在问问题找资料的时候,自然语的搜索准确率极高,这是勿庸置疑的。再说了,本文只是一个探讨,选择何种关键词,完全由您自己决定。

    下面列举一下自然语关键词,大家体会一下就知道了
    电脑死机的原因
    屡试不爽是什么意思
    为什么风扇不转了
    iis是什么
    ……

抛砖引玉话-相关搜索

作者:iqst 转载请注明出处 http://blog.donews.com/iqst  2005.9

       在很多搜索用户看来,搜索结果的好坏往往是搜索引擎的事,但其实用户提交的关键字质量,也对搜索结果起了很大影响!比如有的用户想查找茶叶中“绿茶”的相关信息,所以他就以“绿茶”作为关键字进行搜索,但发现搜索结果中有很多是关于电影“绿茶”的信息。是因为搜索引擎提供的搜索质量不好吗?我看未必哦,如果我们以“茶叶 绿茶”为关键字进行搜索,那么搜索结果是很好的,但用户往往意识不到这一点,他只会顺理成章的认为是搜索引擎提供的结果不好。再比如有个用户想看小说,当他输入“小说”进行搜索后,结果会有各式各样的小说,有武侠小说,网络小说,玄幻小说,言情小说等等,可其实这个用户只想看武侠小说,那么他又会觉得是搜索引擎的结果不好。

        从上面的例子,我们可以看出,我们应该对用户输入的关键字进行适当的指点和引导,以及为用户提供一些关联性和扩展性的关键字,这就引申出了我们今天的主人公:相关搜索

        相关搜索目前没有一个明确的定义,我认为他的主要含义就是: 搜索引擎会给出与用户输入的关键字相关的,并且是相对热门的关键字供用户参考和搜索。换句话说就是:其他和你有相似需求的用户的搜索方式,并按搜索热门程度排序。 那么使用相关搜索对我们具体会有什么帮助呢?我觉得有一下帮助:

    1.提供更准确的,用户希望的关键字
    即关键字细化,比如上面找小说的那个利用,用户可以直接点击相关搜索中的“武侠 小说”;

    2.为用户进行模糊搜索提供帮助和建议
    比如你只模糊的记得有个歌手叫“宝亮”,那么你输入“宝亮”后,会在相关搜索中找到这个歌手:沙宝亮;

    3.多意词搜索
    如果用户搜索的是一个多意字,那么相关搜索中会给出最热门的几个意思供用户继续搜索;

    4.提供搜索扩展性
    比如你搜索“二手车”,那么想过搜索中会为你提供扩展性的关键字,比如:而收摩托车,北京二手车,二手车市场,二手车流通管理办法,二手车交易等。

    关于相关搜索的其他一些东西:
    1 相关搜索的位置一般是在搜索结果的底部;
    2 百度在相关搜索后面还给出了:“更多相关搜索”的链接,方便用户了解与这个关键字相关的更多关键字
    相关搜索手机之家 手机铃声 手机铃声下载 手机号码查询 手机大全
    手机短信 手机图片 手机报价 诺基亚手机 更多相关搜索 >>

     3 对于多个关键词组合搜索时,百度的策略是:取其中几个重要的相关词汇,而google则是取这些词的排列组合词的相关词汇,当然不一定是全部的排列组合;给个例子大家可以测试一下:“北京 大学 英语”

    baidu
    相关搜索北京大学 北京师范大学 北京理工大学 北京科技大学 北京交通大学
    北京航空航天大学 北京邮电大学 北京工业大学 北京外国语大学 更多相关搜索 >>

    google
    相关搜索: 北京学英语 北京英语 中山大学英语 北京大学日语 深圳大学英语
    北京日语 上海学英语 师大英语 浙大英语 复旦英语

    关于关键词之间相关系数的猜测(即为什么输入A,会显示B作为相关搜索呢?)
    我没有找到这方面的中文资料,所以就瞎猜了一下,请高人指点

    1 自然语,固定词汇,常用词汇中的词根间含有很高的相关度
比如我们经常说特大交通事故,那么“特大”与“交通事故”之间就有很高的相关度,在比如我们经常说“人体艺术”,那么“人体”与“艺术”自然就有很高的相关度;

    2 用户经常使用的组合关键词
    比如用户经常会把“手机”与“报价”组合在一起进行搜索,那么搜索引擎就认为“手机”与“报价”有较好的相关度;

    3 用户在较短的时间间隔内进行搜索的关键字是具有一定相关度的
    比如我们在搜索某一个东西的时候,往往要进行多次搜索才可以找到,那么这个过程中我们使用的关键字往往是具有相关性的,这也是判断相关性的一个方法。

    百度的相关搜索相关性较高,更新较快,比如搜索“芙蓉”,那么芙蓉姐姐也会在相关搜索中,但google的相关搜索中就没有芙蓉姐姐;

    google有时会出现比较有意思的相关搜索,比如搜索“足球”,google头两位居然是:
    相关搜索: 网站建设 张家界 足球推荐 西曼自动化 足球网  足球论坛 足球报 天下足球

学会擅用网页快照

作者:iqst 转载请注明 http://blog.donews.com/iqst  2005.10

       先来说说什么是网页快照吧 ,通俗的说,网页快照就是搜索引擎在收录网页时,都会做一个备份,大多是文本的,保存了这个网页的主要文字内容,这样当这个网页被删除或连接失效时,用户可以使用网页快照来查看这个网页的主要内容,由于这个快照以文本内容为主,所以会加快访问速度。

       那么网页快照如何使用的? 点击搜索结果后面的“网页快照”就可见该网页的快照内容。对于随时更新的网站(如:新闻网站)来说,快照内容不可能跟得上其更新速度,但是对于其他类型或者已经不存在的网站来说,网页快照却是非常有用的,网页快照不仅下载速度极快,而且搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。

    好了,现在我们来总结一下网页快照的用途:

   1 无法打开网页
当你要访问的网页不存在或连接失效或者打开速度极慢时,你可以通过使用网页快照来访问这个网页;
    2 查找文字资料
    由于网页快照显示的速度比较快,因此如果你要查找一些更新不是很快的文字,比如技术文档,资料等,可以直接通过网页快照来查看,会节省很多时间的,不信你可以试试;
    3 快速定位关键字
    如果你希望很快找到网页中关键词的位置,并且关键词飘红(或飘什么别的颜色),则应使用快照。
    4 查看网页老版本
    搜索到的网页可能已经更新,如果想看到网页从前的样子,可以使用快照。

    当然,由于网页快照毕竟不是最新的内容,你在查看时也要注意快照日期哦,也许你要找得内容已经更新了!!

    关于网页快照的其他一些说明

    1 哪些网页是看不到快照的?
    答:未编入索引的网页是没有快照的,或者应网页主人要求,删除了快照,这样也是没有快照的;

    2 网页快照多久更新一次?
    答:多久更新一次可不好说,这要根据各搜索引擎程序的爬行程序来定,但我想不会也没必要太频繁;

    3 为什么有些快照会无法打开?
    答:快照只保存了网页的HTML部分,并不保存网页的全部内容。打不开快照可分为三种情况:
    1)网页文本下载如果规定在图片和一些动态文件后,而这些需要先下载的文件刚好无法下载,则快照可能无法打开。
    2)若图片或动态文件下载速度慢,会因为超时而打不开快照。
    3)有些快照中涉及了违法内容,所以不会让你看到。

    4 为什么有些快照打开了却看不到内容?
    答:快照会对网页内容进行过滤,可能不会显示音乐,图片文件,也许你碰到了图片比较多的网站哦,如果网页本身就只是由一个动态文件(或一些java特效)或FRAME构成,则快照即使打开,也有可能什么都看不到。

    5 为什么有时候点了一个快照却连到了其他的网页?
    答:如果网页的源代码中有重定向命令,则快照可能会直接连到指定的网页。

    6 为什么快照中会出现乱码?
    答:这个分为五种情况:
    1)网页指定了错误的编码。
    2)浏览器不支持该网页使用的语言。
    3)浏览器错认了该网页的语言编码。
    4)搜索引擎对文字编码错误。
    5)搜索引擎未能正确识别和显示字符。

    7 怎样才能看GOOGLE快照?
    答:google快照经常不能显示,解决方法也有一些,建议你去搜索一下哦!

    注:感谢张小六对本文部分内容的解答!!

2006年03月13日

hao123.com的主人黑苹果李兴平在5000万卖掉hao123.com之后现在在忙些什么,是否如有些人所说每天抱着美人睡大觉?今天偶然查询ip138.com的信息,居然发现这是李兴平的个人网站,顺藤摸瓜,竟然发现李兴平有着一个庞大的网站群,并且现在有了一家公司“兴宁市兴平计算机贸易有限公司”。查询李兴平所有网站的世界排名,你会有惊奇的发现。李兴平,真是中国网络界当之无愧的传奇人物。

李兴平在广东省兴宁市注册的这家公司我还不敢肯定是在他卖掉hao123之后注册的。

李兴平的网站有下面这些,但我觉得决不仅仅是这些。

        http://www.ip138.com IP查询 世界排名 722
  http://www.4399.com 在线小游戏 世界排名 236
  www.qc12.com 音乐播放器 世界排名 717
  www.tt67.com 动漫flash 世界排名 1846
  http://www.oicq88.com QQ宝典 世界排名 3789
  www.f130.net>http://:www.f130.net
  www.f130.com>http://:www.f130.com FLASH动漫网 世界排名1427
  www.qq163.com 动漫flash 世界排名 820
  http://www.4399.net 在线小游戏 世界排名 522
  http://www.3533.com 手机世界 世界排名 3629
  www.qq163.net 动漫flash 世界排名 1236
  www.8825.com 漂亮桌面 世界排名 2908
  www2.8825.com “网站正在建立中”
  www2.7789.com 音乐播放器 世界排名 2115(记得以前7789是一个很好用的免费统计,现在  www.7789.com已经转向www1.zzcount.com,也是一个统计系统)
  www.dj99.com DJ久久娱乐网 世界排名 1249
  http://www.870.com 870游戏网 世界排名152,633
  www.yy138.com DJ久久娱乐网 世界排名8899
  www.dj99.net 转向 www.yy138.com
  www.2721.com DJ久久娱乐网 世界排名 14092
  http://www.372888.com/ 网站说明:“泰福鑫是深圳唯一一家专业金卡超低价制造商” 招商联系人是李星风,不知道与李兴平是什么关系。

创立网址导航站hao123的李兴平,20多年来从未走出自己的家乡。李的老家在广东梅州市的一个小村庄,在来厦门参加个人网站大会之前他最远就只到过深圳。

  去年10月李兴平把hao123卖给了百度,据说换回了1000万元人民币。在被百度收购以前,hao123因为强大的流量,光是广告分成据说已经是月入百万。不少人帮李兴平分析,如果李兴平不是那么“内向”,早点开始与更多的主流商业网站进行沟通,不是那么固执,早点对VC们开放,卖的价钱也许就会翻番,甚至会获得更大的独立发展空间。

  李兴平的成功很大程度上得益于其有过一段做网吧管理员的打工经历。在这段时间内,对做网站感兴趣的他,很早就开始琢磨菜鸟网民们的需求,同时也开始琢磨各个网站的发展历史。很快,李兴平对于中国排名前5000位的站点都了如指掌,这使得他创立hao123导航站点时,能够做到精确、简单、易用。2003年开始,hao123的网址导航站点已经占领了中国网吧50%以上的首页,同时出现一系列的拷贝者和跟随者。

  对于为什么会卖掉已经收入不菲的个人网站,李兴平承认一个很重要的原因就是自己已经确实无法找到网站下一步的发展方向,同时喜好单打独斗的他也拒绝与别人进行合作。事实上,他甚至拒绝了IDG的投资机会。

  一个没有技术、商业模式、业务营销策略的网站为何受到主流商业网站的器重,它的商业价值在哪儿?百度CEO李彦宏对此的评价是:“正是由于它的简单,简单到你无法去超越它。” 李彦宏认为,互联网用户存在两极:一端是搜索引擎的使用者,一端是导航站的使用者。随着互联网用户的增加,导航站的使用率、用户数还会增长,其中有一部分会转变到使用搜索引擎。百度收购hao123,就是要把这两块最大的互联网人群都揽入自己公司的怀中。而hao123就能真正知道互联网上的“菜鸟”到底需要的是什么。据说,百度在收购hao123以后尝试着自己来运营,但是由于不了解底层的需求,也没有这方面的经验,流量掉得很厉害,现在百度又重新把网站交回给李兴平来运作。

  李兴平对中国互联网用户的理解是60%~70%都属于“菜鸟”,而真正能为这些用户提供服务的是个人网站,而不是那些“互联网精英”。正是由于了解这一群用户,李兴平的hao123才具备了被百度垂青的价值。在决定卖掉hao123的那段时间里,李兴平压力很大,一方面当然是单打独斗的他不知道自己以后的方向,另一方面就是来自主流商业网站给他施加的压力,无奈之下没有任何资源的李兴平只有接受招安。

怀着忐忑的心情注册了斗牛士的blog;

一来因为我是新人,完全新人,来到这牛人按达算的donews圈地,自然会有些忐忑;二来也是因为当初注册了donews帐号,却一直没有被开通权限,就以为这里的博客也需要“够格”才能开通呢。嘿嘿,结果相反,2分钟后我已经在这里发文字了:)

好了,从今天起,这里将是我的第3个博客领地,也是我的第一个IT博客,希望也是唯一一个,讨厌搬家滴!