04月 17, 2013

昨天看到了caoz写的《数据分析这点事》,非常值得深度,看完后很有感触,也在这里随便写写关于数据分析的个人看法。

首先,在数据分析中我也不敢妄称高手,不会很多分析算法,不会用啥统计工具,只会傻傻的去盯着看。但是我非常喜欢看各种数据,大学时整天看各种硬件评测;研究生阶段看了无数相机、镜头评测;后来是每周琢磨全世界各种游戏机、游戏的销量。工作中也特别喜欢建立各种统计系统,看各种数据,现在公司的所有统计代码都是我自己写的,一般工作每天也会花接近30%的时间研究数据,至少可以算是个不折不扣的数据分析爱好者了。

关于数据分析,caoz已经说的非常好了,我也只能补充一下自己的经验感受了。

1、不管做统计还是看别人的数据,第一步永远是数据获取的可靠性。假如是采样数据的话,一定要看看采样方式,看看可能会存在什么样的误差。如果是自己数据的话,也要看看数据获取本身是否科学,例如统计用户行为一般都用js回调,如果还用apache日志来做统计,结果想来也不会靠谱。

2、获取到数据之后,肯定是需要建立统计,这时候,需要想想,建立什么样的统计信息才能更好的分析产品及用户的特性。很多时候,往往单一特征已经很难去描述,需要综合很多地方来看。例如网页搜索中,往往要看首条CTR、前三条CTR,末次点击等多种因素,并通过很多种不同因素结合做出分析和判断。

3、对数据要抱有怀疑之心,尤其是数据本身与你要达到的结论之间有没有必然的因果关系。举个例子,网页搜索结果如果CTR高一定就是体验好吗?搜索广告的RPM高就一定理想吗?

4、生成同一个数据,往往可以有不同的统计方法,如果选择错误的话,结论往往会大相径庭。例如想分析网站对搜索引擎的依赖性,究竟应该用PV,用Session,还是用UV做统计呢?如果一个用户一天访问多次,某些是来自搜索引擎,某些是主动访问,该如何计算呢?这里面还是有很深的学问。

5、数据中往往会有很多噪声,怎么将这些噪声过滤也很重要。就像投票有投票机,有些spider会执行你的统计js,有些用户会误点,如果没有很好的过滤和处理,会使数据的可靠性大打折扣。

6、理解各种可能会使数据产生波动的原因,并通过不断的分析、验证和排除找到真正原因。例如当发生搜索流量下降,有可能有很多种原因,例如机房网络出故障、竞争对手用某些产品捣乱、上线的代码存在重大不稳定因素、运营商出故障或者拉闸限电等等,这中间每个都有不同的验证方式,需要从服务器日志、基调数据、分区域、用户行为等多个维度去进行跟踪和试验,找到真正可能的核心原因。

对数据进行预估和判断需要一种感觉,这种感觉不是天生的,而需要不断的锻炼和培养。这个过程可能很漫长,一般情况下,需要先看很多数据,培养自己对数据的基本认识,也要分析一些事件中(如周末、节假日、或者故障等)数据的变化。而在产品上线前,先自己锻炼一下预估,然后再通过实际值对自己的预判进行验证和评估。通过这种不断的学习和分析,逐渐培养出自己对数据的领悟。

数据来源于用户,这个很多时候更是需要对人性的研究和分析。就像摆在页面不同位置的广告,CTR一般能达到多少?同样位置,摆广告好还是摆用户产品好?要做某个新产品,CTR能到多少?做互联网的大多是高端用户,很多东西自己是不会用不会点的,但正是这样,需要对用户有非常强的代入感,去换位思考,去分析人性,才能事先避免很多过于乐观的预估,以及无谓的试错。

以上,是自己的一点经验之谈。

04月 10, 2013

继百度推广之后,百度联盟也需要安装安全控件了,会提示“为了保护您的账户及资金安全,推荐使用下列浏览器进行登录:IE浏览器,火狐浏览器,谷歌浏览器,金山猎豹浏览器,百度浏览器!”其实就是拒绝了360浏览器的访问,而360方宣称,这是赤裸裸的“二选一”,此行为严重侵犯用户自由选择互联网服务或产品的权利,属不正当竞争行为。我也来说说个人对这件事情的看法。

首先,百度有能力让用户二选一吗?我相信如果百度拒绝360浏览器的访问,一定正中360下怀,可以堂而皇之地把百度骂一顿,然后将流量引导到自己的搜索或其他产品上去,可以算是名利双收。所以让用户二选一,腾讯有本事,阿里有本事,百度恰恰是最不可能的,也不会干这种蠢事的。

那么我们再来看看,百度对哪部分人拒绝360浏览器呢?首先第一批是百度推广的用户,就是在百度上投放广告的那些广告商;最近的这一次百度联盟的用户,就是将百度联盟广告放到自己网站上,以获取广告分成的那些网站站长的。对应到谷歌就分别是AdWords和AdSense两套系统。可以说这部分人是必须要用这些后台系统的,百度说让其用哪个不用哪个浏览器,他们是一定会不使用的。

为什么百度要这么做呢?大家都知道,浏览器是一个非常可怕的互联网入口,用户在互联网所做的操作、获得的信息,都是在浏览器里完成。而浏览器被用来收集数据,在行业内也算是比较普遍的行为,历史上被曝光过的,微软曾经利用IE获取用户在Google上的访问点击行为。前一阵子支付宝汇款信息被Google搜索到,我个人猜测也是Google利用了用户在Chrome的访问行为协助抓取。而百度推广、百度联盟中的客户信息以及其内容,可以说是百度最核心的商业机密,目前没有证据有浏览器收集这些数据,但是作为百度,肯定是要将风险降到最低,不出任何可能出现的意外,做出这样的决定是可以理解的。

以上是我个人的猜测和判断。百度这种“二选一”,首先影响的用户量极小,而且只是不能用其他浏览器访问这些页面,并不是要你卸载浏览器。这是对内部核心客户信息和数据保密的加强,对普通用户完全没有影响,从目前情况来看只是一种正常的商业行为,谈不上封杀,更谈不上二选一,大家大可不必将这件事情看的很严重。对于双方借此产生的公关活动,不予置评。

=========================================

欢迎关注微信公众号《搜索引擎探秘》,搜索微信公众号guoang_search或扫描下面二维码可关注。在这里,我会分享搜索行业的最新动态和评论,介绍搜索引擎的产品和技术,也会讨论搜索周边的产业如SEO、SEM等。

欢迎转载,但请保留微信公众号信息(guoang_search,搜索引擎探秘),发在微博上请at我(@郭昂9)

____________________________________________________________________________________
           

Tags: ,,,,.
03月 20, 2013

去年底,360搜索宣布与谷歌在广告上进行合作,给资本市场注入了一阵强心剂。同时,在今年1月初,360自己的广告和谷歌的广告均在360搜索上线。我就来说说这次谷歌和360的合作,是利是弊,能帮360带来多少的收入?

为什么双方会合作?360搜索很快获得了10%的份额,但这些流量是一定需要变现的,而360搭建自己的广告系统,建设销售渠道都需要时间,与谷歌在广告商的合作能为自己换来时间,在自己广告尚未完备时增加很多纯收入。

360原本占据了谷歌流量的半壁江山,导航站搜索的转化率远高于高端搜索用户和联盟广告。360自己推出搜索后,谷歌不仅是收入损失惨重,同时ROI也大幅降低,使得靠吃消耗返点的代理商日子非常不好过。所以即使谷歌广告只是个过渡方案,谷歌为了权宜之计也不得不合作,不过这种不情不愿,也使得谈判拖了很久,直到360自己的广告系统都上线了才达成一致。

那谷歌的广告究竟是怎么样呢?其实在这几年,随着谷歌退出中国,其流量大幅度的衰减,还有一些不恰当的政策,使得代理商和广告商均急速的萎缩。虽然其广告匹配技术仍然独步天下,但是由于广告商数量以及竞价价格均不如前,其已经远远今非昔比了。再加上360调用的是AdSense for Search,广告量也会不如谷歌自己的搜索广告。

我1月份时,为了验证360的广告效果以及与谷歌合作的情况,自己尝试的搜索了200个查询词,大概在左上方谷歌和360广告的比例是1:1,不过最有商业价值的词均显示了自己的广告。通过28法则大概能够推算出,最有商业价值的50%的词能够贡献85%的收入。

这里让我做个估算,假如百度广告变现是10,谷歌是4,360由于刚上数量技术都没优势以及无医疗只有1。谷歌给360分成是60%,那么假如360全用谷歌的广告,收益是2.4。但是现在360用两者互补的方式,谷歌给其带来的收益只有0.36(4*0.6*0.15,由于广告数及医疗广告的打折,很可能实际还未到这个数字),360的总收益只有1.36,对其总收入的补充非常有限。

而且,谷歌由于退出中国后,服务器都在国外,性能很难有保证,广告都采用后加载的形式进行展现,这就会造成“顿一下”的感觉,用户看到搜索结果后,又跳出来一个广告,对体验也会造成负面影响,谷歌广告的最终收益很可能比之前预计的更低。

谷歌广告的质量究竟怎么样呢?其实没有谷歌的Don’t be evil那么美好。曾经我在搜狗时,搜狗也曾与谷歌搞过类似的合作。当时我们发现,谷歌在夜晚时分,若搜索“美女兽兽”等情色相关查询词,总会出个广告“成人同城找刺激…”,而当时我们验证后,发现这就是一个骗人网站。而谷歌的虚假医疗、山寨钓鱼等广告其实一点也不必其他搜索引擎少。

360搜索实际上也会受到谷歌劣质广告的影响,像其宣称不做医疗广告,如果从销售端进行控制还是很容易实现的,但对谷歌控制起来难度就大太多了。其需要识别一个查询词是否是医疗类的,然后如果是就不往谷歌发请求,以此避开雷区。但是算法往往很难完美的,算法几乎无法保证100%的召回,偶尔有个漏网之鱼,就会落人口实。就像今天这个“老苗汤”事件,我相信就是由于没有识别出是医疗类词而被展现出来的。

而且,由于最有商业价值的查询词都出了360自己的广告,谷歌剩下的广告经常会很不靠谱,而且完全不由得360自己控制。像1月份时,就被我抓到过几次很离谱谷歌广告的现场。

综上,我觉得从收入上,谷歌广告对其补充极其有限。从用户体验上,打开性能、广告质量都不可控,还有可能会漏过一些医疗广告。也许,360能够通过与谷歌的合作学习到一些广告技术,但我觉得在当前整个技术体系已经很成熟的情况下,还不如挖几个技术人员的作用更大。所以个人认为,这场合作,或许形式意义更大于实际效果。

Tags: ,,.
03月 18, 2013

前一阵子,起点团队集体出走,引起了行业的渲染大波。我对事件本身只是一个纯看热闹的状态,但是虎嗅网和侯小强却吵起来了,我也想借此机会,说说我了解的虎嗅网以及这种新媒体。

虎嗅网刚推出不久,微博还只有两千多粉丝时我就关注了,因为我感觉这里的文章与其他媒体那种成固定模式的报道不同,很有思想也很有观点,文章少而精,用不了很长时间就能看完,后来每天上虎嗅也成为渐渐的也就成了一种习惯,而虎嗅也发展出了一定规模。

而在3B大战时,我由于微博上写了一些评论,虎嗅找我写文章,我想着除了自己的微博和博客多发一些地方也挺好,也就答应了。后来渐渐的习惯了有些内容先给虎嗅发,也建立了长期的合作关系。在这其中,除了偶尔评奖中了一下以外,也没拿过一分稿费。有其他媒体找我约稿我也没答应,因为自己全凭兴趣,不指望这个赚钱,也不想去写什么命题作文。

其实虎嗅和传统的IT媒体有着很大的区别,这里的文章并非源自于记者,而是凝聚了很多独立作者,其作为一个平台,让大家在这个平台上各抒己见发表自己的观点,使得文章与传统媒体有很大的区别,很有思想,很有观点。

和虎嗅创始人和编辑在过去的交流中,他们也曾表示过,作为新媒体平台,他们更希望这里能够拥有多元化的观点,只要是有价值有思想的文章均很乐意进行刊发,给更多思想一个表达的声音。理越辨越明,即使有些文章内容有些问题,但有文章和评论去反驳。但是一个底线就是,决不能收厂商的钱。

过去曾经有两件事情。在3B大战的时候,李岷曾经拿过来一篇投稿文章让我评价,我看了是个很枪的文章(恕我不能说是偏向哪一方的),我们两个的判断也是一致的,最终没有发,后来这篇文章发在了别的地方,而且被一方炒的很热,她还笑称,如果真发了说不定转发都上千了。另一次,她又给我另一篇知名作者的文章让我看看有没有问题,我看了之后指出有些数据引用不当,在第二天看见发的文章中,我提出来的问题点已经被删掉和修改了。其实他们对待稿件内容还是非常严谨的。

对于起点事件,我只是个旁观者,无法去评论功过是非,对于侯小强的这条微博:

虎嗅网发表文章称:从侯强加盟盛大以来,多次收购亏损严重的文学网站、出版社的情况来看,这个文艺CEO有没有替陈天桥养好这只不断成长的金奶牛的能力,还待检验。我当即短信了虎嗅网创始人李岷,说我们当时并购的公司现在基本全盈利了。李狡辩说我们说的是当时啊。身为媒体人,你有起码的职业道德吗?

我看了三五遍,觉得从逻辑上看,确实没啥太大问题,一个说的收购时亏损,一个说的现在盈利,理解不同而已。不过这些具体字眼都不重要,作为一个新媒体平台,这个只能代表投稿者的观点而非网站的观点,我相信,虎嗅也是一定希望看到并刊登侯小强一方的回应的。

另外,我一直认为,作为管理者真的很不容易,不管发生了什么问题,都一定是管理者的错误。并不是做的每一件事情都对,最终就是对的,很多事情也并不是有苦劳就一定有功劳。矛盾这么大,作为任何一方,自省都是很重要的,希望最后能有一个妥善的结局。

Tags: ,,.
03月 12, 2013

如果说互联网是一个大江湖,曾经的搜索引擎是一个指路标的话,那么如今的百度,已经成为了一个小江湖,在百度之中,不仅仅拥有了各种搜索,还建立了庞大的用户社区,甚至其触角也伸到了很多下游的用户产品中。

百度作为搜索引擎的老大建立了最庞大的生态链。在垂直搜索领域,可以说是只要是其能够想到的,对用户有帮助的,其都会进行涉猎。百度也建立的大量的社区类产品,包括百科、贴吧、知道、文库等产品对用户均拥有了超强的粘性,均成为了同类网站的老大。而且同时,百度也通过收购以及内部创业,继续在很多垂直领域精耕细作,其通过奇艺视频、百伯人才、爱乐活进入了视频、招聘及生活领域,并且收购了去哪儿网、天空软件站等垂直网站。可以说,百度已经不再是一个单纯的搜索引擎,而变成了拥有搜索、社区、内容的互联网大鳄。

百度为了推广自己的这些产品,给自己的各种产品带来流量,在其搜索结果页中,总会将自己的产品排在很高的位置上,例如当你搜索一个影视明星时,你会发现,一整页10条结果中,往往会有百科、视频、音乐、图片、新闻、贴吧,有时还有知道,留给其他网站的结果的空间只剩下三四条。

这样子的展示结果可以说是非常花哨,虽然有时候看起来有点不够那么整齐,但这说明了百度拥有着极大的内容资源,其不仅可以把握的互联网流量的入口,同时也控制了流量的出口。拥有这样子的基础,在某些领域,甚至可以将搜索结果变得像一个门户,提供一站式的整合的信息服务。

在这样子的背景下,百度的整合搜索推出了,其最先应用的类别就在明星上,因为在这个类别上拥有这最丰富的资源。当搜索一个明星名,用户会发现,处于淡灰色背景的特殊样式结果占了足足有接近两屏的信息,包含了百科、图片、微博、新闻、音乐、贴吧和视频七大类的结果,基本涵盖了最核心的用户需求。传统结果中虽然这些结果依然存在,不过和普通搜索的自然结果是混合在一起的。而在百度整合搜索中,将这些特殊的结果聚合在了一起,给了最好的位置,最突出的展示样式,而且行间距变得很宽松,使得看起来更像一个有序整体,漂亮而突出。在这种情况下,绝大多数的点击都会被这些信息所吸走,用户点击原有普通网站的结果的可能性会越来越低。

Tags: ,,.
03月 7, 2013

因为工作内容的原因,我在前后两家公司中的工作中主持和经历了十余次代码和架构的重构,下面随便说说我对重构的一些经验和想法。

关于重构

首先重构面临的背景都是相似的,程序员们为了快速完成需求和上线而写出了最基本的代码,而在功能的不断扩充过程中,以打补丁的方式对代码进行扩充,中间还会面临着开发人员的变更和离职。逐渐的,代码就会越来越臃肿,渐渐的变得难以维护。

糟糕的架构会有什么样的影响?首先是开发效率的降低,在糟糕架构下加进新功能,会受之前代码的影响,可能存在意想不到的改动点和问题点,开发和调试时间都会大大增加;其次是故障率的提升,在质量低下的代码中,总是容易藏着很多不易发现的坑,这些都会成为故障的隐患;同时,架构也会使得需求的完成大打折扣,使得设计好的目标,因为架构限制或者性能等原因,只能完成80%甚至更低。

重构要解决的问题

重构不能凭空重构,一定是要解决一个问题,一般情况下重构要解决的问题大致有以下几种。

结构糟糕。相信很多码农们,都遇到过接手别人的代码后都感到挠头的事情,五千行以上的文件,三千行以上的函数,面对这样子的代码,对其进行修改和继续开发是件很艰难的事情。

安全隐患。很多代码,都只是为了功能上快速完成,而对很多潜在的安全风险置之不管,如内存管理、异常处理、模块接口等。有的雷如果不扫,可能迟早有一天会爆发。

性能问题。对于很多大型服务,性能高一点可以节省很多的服务器费用。性能问题主要需要找到核心问题,有的问题出在架构,而大多出代码上。

功能扩展。有的模块,开始设计时只是实现一些很基本的功能,而随着产品功能不断增强,被赋予了越来越复杂的功能,到了一定程度,需要进行重构以让其能够实现新赋予的任务。

协同开发。很多时候,一个大系统往往需要多个人一起进行开发,如果需要这些人改同一个类甚至同一个函数,往往是冲突不断,而代码的整合往往也会存在更多问题。这时候需要很好的架构能够支持多人的共同开发和修改。

模块调试。在一个大系统中,往往有很多子模块互相关联,而假如某个模块的调试需要启动整个大系统,或者会受到其他模块稳定性的影响,对于效率是非常低的。而重构建立调试层或者开发调试工具是更好的选择。

模块复用。有些时候,多个系统或算法,可能会用到子算法和子模块,而不同项目或模块重复开发相同功能的子模块,在很多公司都很常见。而很多时候,将一些公共的部分抽象出来,能够将这部分做的更好更精,而从整体上,往往能大幅度提高开发效率和效果,往往也能优化算法性能。

算法使用不当。在有些模块中,使用了不恰当的数据结构或者相关算法,使得或者是性能,或者是效果出现了问题。这种情况,甚至要将原有的体系结构推到重来,重新设计算法和数据结构,达到尽可能好的匹配效果。

承载规模不够。对于一些系统,都有其设计的容纳规模,例如瞬间访问量、同时在线人数,很多公司从小到大都经历过这个过城,当超过一定量级时,很多时候并非简单通过加服务器能解决,有时需要重新设计架构。就像12306,因为架构问题使得很难承担过高的瞬时在线人数。

重构经验感受

重构时,第一道难关是如何过领导这道关。很多领导都要背着产品指标和任务,大多人也更关心其能够在多长时间做出什么,重构这种事情,在很多时候,有可能是“费力不讨好”的代名词,因为在大多情况,无法帮助领导完成指标。这种情况下,如何获得领导的支持就极其重要了。

对于重构,一种方法是,让重构与某些技术或产品指标挂钩,例如完成新产品、改进效果、提高性能等,相当于是重构伴随着其他改进搭帮上线,那么这种情况可以比较顺利的完成重构。

而如果单纯的为了架构的合理性而去重构的话,就需要去说服领导,为什么原来的架构会降低开发效率,新做的架构能带来哪方面的提升。一定要让领导明白,这个能带来实实在在的长期收益,不管性能、效率、安全等都可以,而并非只是“看着不爽”而进行的重构。

如果团队规模有一定的人的话,也可以分出一部分进行新型架构的开发,而另一部分人在现有架构上进行改进,使得短期目标和长期目标两不耽误。这时候,值得注意的就是,不管从代码还是设计角度上来看,都要让现有做的事情能够复用,而不是新架构上线之后就会被废掉。

如何进行渐进式重构,也是很多架构师需要去思考的问题。就是不搞一下子半年一年的重构,而是以月为单位,快速的迭代,能够很快的看到效果,并且小规模投入使用。

不管怎样,重构,一定不能是为了重构而重构,或者对前人的代码看着不爽,或者抱有技术完美主义而进行重构,最重要是找准其要解决的实际问题,这时候的重构,能带来的是开发效率上的提升。

而在重构的过程中,也需要做好新架构的设计,并且拥有一定的前瞻性,否则很容易出现新架构、新新架构、新新新架构这样子的事情。另外,也要尽可能的增强代码的复用性,让其中的模块,在任何一个架构中都能够很好的被应用,当然这个要根据具体情况具体分析。

对于重构,也尽量不要拥有技术完美主义。很多时候,使用最成熟的方案及最简单的架构模型实现所需要的功能一般来说更加“简单可依赖”,有的时候架构过于复杂反而喧宾夺主,因为所有架构都是为了功能服务的。同时,也尽量不要使用很多未经广泛使用的前沿技术,因为这些在开发和部署过程中,很多都可能会遇到意想不到的问题,延缓开发速度并影响线上效果。

此外,作为重构时的负责人,一定要紧跟代码开发的过程,并随时进行指导,一般情况下,不要相信写出糟糕代码的人,经过略加指导就能写出漂亮代码了。我曾经有过这样的经历,要将一个超大的类按照功能进行模块化拆分,设计好了架构及每个子模块就让组员进行开发。开发完了我看代码时登时就抓狂了,模块是拆分了,每个功能也都建立好了子类,并通过主类调用子类,但是每个子类又都将主类作为友元,又去调用主类里面的成员变量和函数。这种代码,再次重构也是难免的,这个给我的经验教训就是,重构的工作一定要做细,迭代中的代码检查也是必不可少的。

良好的习惯,从最初做起

当然,重构再怎么样,也是一种推翻重做,耽误时间的做法。从我的经验来看,其实大多数的重构都是可以避免的,这需要从以下几个方面去提高。

良好的编码风格,好的习惯往往很难是天然形成的,更多是在工作中不断的老带新中耳濡目染练出来的。很多领导希望员工全部时间都用来做项目,不断地去压更多的活,实际上是在用跑短跑的方式跑长跑,很容易出现后劲不足的情况。而我在微软的经历,也让自己感受到了从潮手到逐渐成熟的过程,后来在搜狗时即使再忙没法搞team review,我也会去尽量给每个组员检查他们的代码,帮助别人去提高。

初期的架构设计,这个也是非常重要的。架构设计能不能一次到位,这个不太好说。但是相信好的架构,一定比粗糙的设计能够坚持更长得多的时间。并且好架构可以考虑到未来可能扩充的规模和功能,为未来的发展留好接口。同时在其中所有的模块都非常有序,即使大的框架要修改的话,也只是搭一个架子,原有的子功能和子模块都能够被很好的复用,

其实很多时候,代码并非要开发一阵就重构一次,而写出好的架构,也并非是那么难。更重要的是,需要的是不断的提高程序员的自我修养,不仅仅是能力上的,还有态度上的。不要只想最初开发时省事,而不考虑若干时间后的事情。好的架构,对未来的开发以及发展,可以说是真真实实的“事半功倍”。

Tags: ,,.
03月 5, 2013

百度绿萝算法于近期上线,这影响到了很多的网站站长。因为对于网站来说,流量就是生命,而百度由于占据垄断地位,更是大家的“衣食父母”。所以每次百度算法更新,都会有无数人哭无数人笑。那么绿萝算法究竟是什么呢?

很多站长为了从搜索引擎上获得更多的流量,均会想尽很多办法进行SEO(搜索引擎优化),以提高排名。而搜索引擎优化又分为白帽和黑帽,前者是采用正当的方法,通过改善对搜索引擎的友好度等方法来提高流量。而黑帽,则是采用作弊甚至欺骗的手法以获得流量。而一般作弊的方法主要有两种,一种是内容作弊,另一种是链接作弊,绿萝算法主要针对的则是后者。

搜索引擎进入21世纪后,链接分析(也称超链分析)技术在不断的快速发展,并在搜索引擎的排序得到了很深层的应用。其中最著名的莫过于PageRank,这是谷歌创始人拉里·佩奇发明的技术,其本旨是,引用一个页面的链接越多、页面越好,其质量就越高,就像新浪网首页肯定会被无数网站所指向,其页面权重也就很高。同时还有另一个被广泛用于排序的特征,叫做锚文本,通过指向一个网页链接的文本信息,来描述网站的名字。例如,描述www.sina.com.cn这个页面的标签有新浪、新浪网、sina、新浪网首页等,指向这个页面的标签的名称以及数量,也是很多关键词的重要排序依据。

而搜索引擎的这些算法也被广大站长所熟知,其中不乏大量钻空子的人。一方面,因为链接在排序中有着非常重要的依据,其中有很多地下的链接交易黑市,原本本身应该是互联网自然关联的链接,被搞成了大量金钱的幕后交易。有很多网站,均会出售自己站内的链接,甚至还有一些专门为链接而生的网站,摆满了大量的链接来提高网站的流量。

而这些链接的锚文本,也被搞得乌烟瘴气,例如我们网站“马可波罗网”,指向首页的链接叫马可波罗、马可波罗网、马可网之类的都是很正常的事情,但是假如链接名叫做贸易网、内贸、b2b之类的,就显得有点超越界限了。但是恰恰有很多网站,在干着这样子的勾当,例如“淘宝网女装”、“淘宝皇冠店”这样的热词,由于收益巨大,也成了无数网站的争夺点,大家疯狂的购买这样子的词,本身应该是自然名称的锚文本,已经被搞得乌烟瘴气。另外,就像淘宝网这样子的词,居然会也会被某个卖包的网站疯狂购买,以排到了某些搜索引擎的首页。

现在的互联网超链,已经渐渐的被一些作弊手段所感染,偏离了其本身应该具有的含义。而黑帽SEO和搜索引擎反作弊永远是矛与盾的斗争,搜索引擎的目标是用户体验,其会想尽一切办法与作弊的优化做斗争,以给用户一个更好的产品。而百度绿萝算法,主要也是为了解决这个问题,找到那些做链接买卖的黑市网站,找到那些作弊的链接,找到那些恶意买链接的网站,对其进行惩罚,尽可能的还互联网超链一个“清白”。

那会不会有站长因为被竞争对手买了一堆作弊链接,或者被恶搞了一堆无关或恶意链接(如色情词),而惨遭降权呢?我看到百度站长工具推出了一个拒绝外链的工具,能主动删除这些对网站负面的链接,来避免这些发生,达到净化链接的效果。

最后,在看过百度的《百度搜索引擎优化指南》的文档,并研究过百度站长工具后,我个人非常欣赏百度为了更好的和站长交流,以及更干净的互联网环境所作的努力。搜索引擎和网站是彼此互相依存的生态圈,大多数站长其实还是很正经的经营着网站,也希望能够通过双方不断的努力和配合,建立一个更加优质和干净的互联网环境。

Tags: ,,.
03月 4, 2013

昨天,一篇名为《1亿美元收入的地下暗流:起底搜狗秘密联盟产业链》的文章在网上传播,我也顺势说说联盟广告。

有人的地方就有江湖,有钱的地方就有腐败。而联盟广告因为离钱非常近,所以自然避免不了很多阴暗面的暴露。

搜索引擎四个可能滋生腐败的地方:销售渠道、联盟广告、反作弊、删帖。这就像淘宝的小二一样,因为拥有着巨大的权利,也影响着很多人的“生计”,总会有人面对诱惑时,把持不住自己,存在个体腐败是在所难免的。这也是搜索引擎的“暗面”,曾经有很多公司很多人,因为东窗事发而身陷囹圄。

相信很多站长都会摆上各种联盟广告赚点收入,但是如果只是平稳的看着收入情况时,总会觉得不过瘾。我相信联盟站长中,十有八九都会想要点点自己网站上的广告,给自己多来点收入。当然,有的人是想要多赚一点点钱,而有的人指着这个赚钱。这就是酒里掺水还是水里掺酒的区别。

正是因为如此,联盟广告一直是反作弊的极大挑战,需要不断地强化各种的识别技术,想要揪出作弊的站长,还生态圈一个干净,还广告商一个效果。Google Adsense就对联盟广告作弊几乎是杀无赦,一旦发现就立刻打入黑名单。不过技术无法解决所有问题,现在很多作弊方法水准越来越高,反作弊的难度也越来越大,这是一个长期的矛与盾的斗争。

到底搜索引擎自己会不会参与?我觉得一般情况下,搜索引擎是不会干这种事情的。因为广告商是要看效果的,绝大多数广告商都会监控自己的ROI(投资回报率),如果其付出得不到回报,可能就会调低广告单价,甚至退出这个平台。一般情况下,大多数搜索引擎本身管理层,是不愿意做这种杀鸡取卵的事情的。

这些事情,想要根绝是非常困难的,一方面要想办法提高技术,另一方面要提高管理水平,严惩内部腐败,去努力营造一个健康的生态环境,以获得更长期的发展。

至于那篇文章,我看了之后感觉逻辑非常混乱,虽然具体情况我确实不清楚。但是据我所知,搜狗收入中联盟广告占的比例是非常的低。另外背后的那些故事就算不是空穴来风,也顶多只够某些小人赚点小钱。可以说是极度夸大事实和作用,作为炮文,虽然看起来凶猛,但是水准确实不高。

Tags: ,.
02月 28, 2013

做好搜索需要什么样的境界,怎样才能做好搜索?虽然题目可能有些大,但这是我做搜索这段时间来一些很深但又很浅的感悟。说浅,看起来似乎很普通,说深,做好真的很难。

经常和很多公司做搜索的朋友们聊天,也会和人讨论一些新的形态,其中看到一些观点

1. 现有的搜索会被颠覆,颠覆其的多种多样,有app、有社交搜索、也有其他形态

2. 搜索的技术会出现重大革新,远远领先于现有的产品一个时代

3. 某某搜索要努力在短时间快速提升,达到某某的水准

现有网页搜索本身会不会被颠覆呢?其实看过很多用户的使用行为,研究过用户的查询需求,琢磨过后续点击,会感受到其真正的内在魅力以及用户价值和社会价值。其他的形式有可能会成为其很好的补充,但绝对不会取代现有搜索的地位,而网页搜索的技术和产品形态本身还会不断的提升和革新,以顺应时代的需求。

最近一直在思考,做好搜索需要怎么样的境界?而这个境界不是无休止的耐心,不是超大的投入,也不是所谓的基因。而怎样才能做好搜索,回味着自己过去做过思考过的很多细节,想从另外一些角度去思考这个问题。

首先做好搜索没有万能药,超牛的架构不是,超强的用户数据不是,近年来大红大紫的Lambdamart不是,更好的产品及形态也不是,执着于某一点,也许可以在短期内取得突破性的提高,但做到一定程度,却很难达到更高的高度。

网页搜索本身可以说是最复杂的产品之一了,想要将效果做好,在排序前要做好抓取、页面分析、选取、索引、链接分析、召回,做好效果要考虑相关性、权威性、时效性、点击,NLP要考虑分词、去词、同义词、重要性、紧密性,此外还要有开放平台、垂搜整合、Hint、Suggestion等。如果涉及到产品革新还要有更多的领域和工作。

其中在任何局部突破,都是术的领域,而想要做好搜索,需要从道的角度有所突破。

以前,我讨论搜索结果效果究竟是什么?其不仅仅是技术,也不仅仅是产品,而更是一种思想,一种想要不断探索和研究用户需求,一颗最自己产品永不满足的心。

做搜索首先一定要接地气,一定要真正的钻到case中,去看用户的真实查询,去研究用户的点击,去与竞争对手去比较,去找到自己的差距和不足。

想要单纯的依靠牛架构、牛算法或者牛数据做好搜索,是很不现实的。当做的越深,就越会发现,做到一定程度,想要做到极致,靠的不是长板有多长,而是要努力没有短板。

也许有时候会发现,当面对10个要解决的Case,可能问题出在10个不同的模块中。搜索做到一定程度后,没有太速成的方法,更重要不是技术有多牛,而是细节做得有多好。有可能当做出一次改进时,改进不足0.1%,甚至只有0.01%,但很多时候,体验就是靠这些不断的小改进堆出来的。

搜索的需求非常复杂,只有真正的去接地气,认真研究需求,做好每一个细节,这是道之一也。

很多人都会对KPI有想法,不合适的KPI或过于注重KPI很容易出现,每个团队都在为了自己的KPI去工作,团队之间互相推诿,最后大家各自使劲,最后发现团队的目标与公司的目标无法吻合,投入了很多却无法获得相应的收益。而有的小团队,拧成一股劲朝着一个方向努力,不用投入很多却能做的很好。

而对于搜索这么大的工程而言,同样也是这个情况,那么多的团队,那么多复杂的算法,那么多的交互,如果不能很好的整合,也会出现那种劲使不到一处去的情况。很可能会出现类似最好的分词不适用于算相关性这种情况。

任何一块强都不是真的强,只有整体做的好才是真的好。将团队拧成一个整体,让项目拥有同一个目标,让每个好的算法能够很好的整合,这是道之二也。

现在的搜索引擎做到什么程度了,也许只从找网页来说,几个主流的都不算差了,但是你会发现,搜索引擎还在不断的进化,其发展永远没有止境。

也许做了很长时间,你会发现,不管你做的有多努力,总有一些需求满足的不好。或者以目前的形态下足够好了,但是结果对用户并不完美。而在这种情况下,走在前面的会去思考探索产品和技术解决之道,而带来一次又一次的进步。

从后来的框计算、应用平台,再到知识图谱,搜索总是在不断的创新着。而也在不断有人探索着个性化、社交化、交互性甚至门户化的发展方向,不是所有的创新都会成功,但是成功却离不开不断的探索和创新。

一颗永不知足的心,持续探索着产品和技术的创新,追随时代的前行,这是道之三也。

一件事情做的有多牛,不是看你使用的技术有多强大,而是能否选用最恰当的技术,并且将所有细节做到位了,达到最好的效果。

一个项目想要做好,不是每个局部都取得好成绩就可以的,而是需要所有人拧成一股劲,去为共同的目标努力。

一个方向能够走多远,不是看今天站的有多高,而是你能够看得更远,能去不断探索,追随甚至引领时代发展的脚步。

精诚团结、做好细节、迎接趋势,这是在我心中做好搜索需要达到的境界。说深不深,说浅不浅,知易行难,想要做好,需要付出更多更深的努力。

以上,是我对搜索的一些妄想。

Tags: ,.
02月 27, 2013

本文接《看懂数据背后的秘密,了解搜索引擎的份额统计》,了解搜索引擎统计,可先看看那一篇

CNZZ搜索市场统计相信是广大从业者最常用来了解搜索引擎市场份额的工具,相对于其他的统计工具,其更新的最勤快,很快就可以看到前两天的数据。更难等可贵的是,这个比起艾瑞等收费数据来说是完全开放的,每个人都能看的到。今天,我就来深入说说CNZZ统计的一些奥秘。

CNZZ本身是个非常有名的站长统计工具,其和Google analytics、百度统计相似,能够帮助站长统计自己网站的流量、跳出率、用户来源等信息,据其宣称有50%的网站都使用了这个统计工具,当然大多是小网站。而CNZZ做搜索流量统计也是根据这些网站的数据,统计这些网站来自每个搜索引擎的流量分别有多少,根据这个计算搜索引擎的市场份额。

首先是占有率和使用率究竟看哪个呢?可以这么理解,占有率是UV,就是用多少用户使用过这个搜索引擎。而使用率是查询请求数,就是用户请求了多少次查询。对于搜索引擎来说,其份额和变现都是通过查询次数来计算的,所以使用率是最重要的数值。

中文搜索每天的总点出应该在10亿左右,而CNZZ能够覆盖多少呢?我们原来在搜狗时,曾经专门做过分析和统计,大概占总流量的10%-15%左右。而且这块会受不同搜索引擎的流量组成成分和排序策略所影响。如果某搜索引擎的用户群体和CNZZ的群体倾向性相似,或者某搜索引擎的结果排名更倾向于使用CNZZ统计的网站,CNZZ统计出来的份额就会比实际份额更高一些。

具体这些搜索引擎的实际情况如何呢?对于百度,我们都知道,其结果非常倾向于百度自己的其他产品,例如贴吧、知道、文库、百科、奇艺等,而这些页面都不会使用CNZZ统计;而使用CNZZ代码的网站多为娱乐类网站(程序员估计都会用GA),所以流量成分偏高端的Google也会相对吃点亏。而其他搜索引擎就会占一些便宜,不过大概都在10%左右,影响并非很大。

而单个站点的结果影响对CNZZ最终结果会有多少差异呢?我们做个算术题,假如有一个使用CNZZ的网站,占了某个搜索引擎点出的1%,而被其他搜索引擎所封禁无点出,会影响多少流量呢?其实不是1%,而是10-15%中的1%,几乎可以影响到CNZZ对这个搜索引擎估算流量的近10%。

以前有一次,搜狗在CNZZ上莫名提升了5%的份额,当时我的判断就是肯定CNZZ收录网站有变动,最后查实确实是有一个和搜狗合作的开放平台数据提供网站新使用了CNZZ代码。

所以,搜索引擎想要欺骗CNZZ也很容易,只要针对使用CNZZ代码的网站进行额外的排名优化就可以了。像上面所说的1%,对于快播或者百度影音类网站,其实没那么难。当然,再次声明,我是不屑于干这种事情,也绝没干过。

当然,魔高一尺道高一丈,我是不会只放毒药不管解毒的,在这里也教CNZZ一招去对付这些招数。这些其他页面的流量可以异常波动,但是寻址类查询词的流量却很难造假。例如4399.com的来源词可能是4399、4399小游戏等,若当寻址类查询的总数几乎未变,但其他数据异常波动时,就需要去分析调查其原因了。

当然,如我在前一篇文章所说,即使采样都有问题,但正式可被使用的数据都只有那些基于用户采样的统计工具,这种基于网站的统计是无法登上“大雅之堂”的。而CNZZ统计本身也有几个存在的问题,使得其数据有一些不可靠的地方。

若CNZZ监测流量中的refer存在问题,其就很难统计正确。搜狗浏览器由于是双核,在某些情况下,从高速核的搜狗搜索点出到一个兼容核的网页,网页端的js代码无法正确取到refer,使得流量在有些情况下会低于实际值。

CNZZ中居然存在百度视频,这本身是一件非常不科学的事情。众所周知,视频网站的索引内容及点出结构与传统的网页搜索有着本质的不同,而对这种完全不同的产品用相同方式做统计就更是一件很不合理的事情。

360导航原来默认搜索是谷歌,当其切换到自己的时候,谷歌的流量受到了极大的损失,我这边看到的几乎被腰斩,而各种其他的统计中谷歌流量也都狂跌,而在CNZZ中,居然未变!这块容我猜测一下,当时CNZZ内部检测到谷歌流量下跌后,以为是自己的统计出了问题,人为的将其调回到原来状态,然后就将错就错下去了。

不管怎样,CNZZ的搜索统计做为一个免费服务,帮助很多搜索爱好者、从业者及站长了解搜索份额,是一个很好的参考工具和风向标。也希望其能够不断的完善统计方法,让其的准确性和公信力越来越高。

Tags: ,,.