2010年05月25日

在搜房网的五年和SEO工作体会

不知不觉离开搜房网快1年了,从04年到09年。把这五年的日子拟人化,就像许巍的时光中所说的“在不知不觉的一瞬间又想起你”。每个人都怀念自己的年轻 岁月,不是吗?

在进入搜房前,我在一家ERP公司做开发,每天在应收和应付账款模块之间忙来忙去;有一天看到一篇介绍hao123的文章触动了我,是不是该去互联网行业 里去试试? 正巧就碰到在搜房的一个老同事在ChinaUnix上发布的招聘信息,于是在他的推荐下进入了搜房网。

任何公司都是从小到大,从无到有,搜房网在04年正踏上加速跑道,朝EveryThing Home On Internet的路上狂奔。可你也许不知道在这之前的某年的某一天,是用一台笔记本当服务器救急呢?我也没有想过我会以程序员的身份入职,然后五年后以 另一个称呼离职。

能接触SEO,完全是因为当时一个叫Lucene的搜索引擎开发包在国内流行起来,让我能从这只麻雀身上了解到Google这头大象的一些基本情况,又恰 好百度逐渐成了很多网站流量重要入口之一,需要懂这方面知识的员工改善在百度的表现。于是就有机会接触了我程序员以外的第一个新岗位。

我的第一次“被黑帽”经历是在05年底06年初,当时有一家网站和Tom房产频道建立了合作关系。这家网站不光宣传攻势来势凶猛,而且关键字排名也表现 好,特别是“房地产”三个字百度排名第一。之前“房地产”的前三名都被搜房网、搜狐焦点和新浪房产三家独占,轮流坐庄。自从这家网站“房地产”排名变成第 一后,我写周报的心情就差了很多,没错,碰到这种事情,要比碰到Google Dancing更紧张了,Google排名震荡是几家欢乐几家愁,对于门户级的网站(因为有长尾效应)影响不大。心情归心情,如果工作没进展,免不了挨 批。经过了近1周多的分析后,终于发现了对手的做法:从网址导航站引入了大批反向链接、弹窗等等…。SEO在当时也正从技术属于变成运营名词,莫总很 关心这个事情,于是有了我第一次把信抄送给了莫总,标题是:有证据表明…..。莫总很快回信,询问细节…,从那时起莫总就对SEO一直很支持,经 常开会询问。几年后回头看SEO手段的进步,才发现,那个时候正是这种手法最疯狂的时候,不少站长也也赚到了SEO的甜头。后来这个问题怎么解决呢?我想 搜房着急,但不可能照对手的方法做。于是我就给Google写信反映这个情况(学的英文终于派上用场了),每隔几天就写一封,不知道是巧合还是…,总 之没过多久世界平静了许多。从这个事件以后,一直对“房地产”这三个字的反向链接格外留意。

在08年底的时候,南方一个城市的排名忽然出了大问题,70%的主要竞争词被竞争对手占有,而且首页一出就是好几条,极为异常。当时正值年底,销售们都在 为年底的奖金提成冲业绩,那个城市的总经理也在大会上重点提此事,其影响和压力可想而知。在网上整天找SEO资料看的是新手;用自己的网站默默做实验的正 在入门了;对各种排名现象能有第一直觉那就是找到感觉了;能无中生有,凭空设局的是高手;当时我的直觉是百度会不会有点问题?于是重操旧技,通过一些途径 和方法给百度反映问题。不过可惜的是这次持续的时间有点长。

看了这两个事件后,你也许会说,田春峰这是什么SEO啊,就会给搜索引擎写信。的确,做SEO其实有时候很无奈,因为让你欢喜让你忧的搜索引擎,是一个被 N多算法和参数缠绕的大家伙,当你实在感到困惑的时候,只好从另一些角度想问题了。

最辉煌的时候,我记得在百度搜索全国7000个楼盘名称,前三名中搜房的占80%,Google的表现也不俗。离开搜房的这段日子我也想,到底是那些原因 让搜房在搜索引擎上表现这么抢眼呢,还有可能让这样的情况再度发生吗?也许正如这几天《三国》火烧赤壁的情节一样天时、地利人和吧。在公司工作任何成绩都 是团队的,所以我也就不过多写客套话了。不过仍要深深感谢一起工作过的同事们…

在搜房工作这段期间也做了一些SEO工具,写了一些相关的博客,一并整理如下吧:

SNS 网站自动加好友外挂:支持校内网、开心网等

seo 优化:把百度放进数据库

SEO 比比看: Che168.com VS pcauto.com.cn

《百 度互联网论坛收录开放协议》-生成器

搜 索引擎SEO外挂:一边搜索,一边看PageRank

基 于SEO的Log 日志分析软件应该提供那些功能?

google 生活搜索— 工作搜索数据来源调查

Domolo SEOHelper 多么乐SEO工具:璀璨登场

[数 据统计]百度在调低索引库的容量

我 和CSDN这五年

给 站长们的第二封信:Page Rank 吸血鬼

基 于平移算法的一个小演示

[数 据统计] 搜索引擎索引库:百度大于雅虎中国 之一

多么乐博客群发系统

Tags: ,,.
2008年12月11日

Alexa ,你离寿终正寝还有多远

自从Web2.0的号角吹向后,互联网站又经历了一场新思想、新理念、新技术的洗礼。在这场大浪潮中
所有与互联网站相关的上下游技术、产品、运作方式都出现了大量的革新。Alexa作为提供全球第三方网站排名服务的权威也未能幸免。
顺应浪潮或者被遗忘到历史的角落,这是一个问题。

从最近1年Alexa悄无声息的“变化”,我们看到Alexa选择了后者【见后文】。但Alexa做的还不够,很显然,无论是从技术爱好者还是国内IT媒体,对Alexa排名的关注度无疑已随着冬天的来临降到了“冰点”。在尼尔森推出16类网站的10大排名 后,没有人否认,更没有人再跟Alexa做对比。
            或许对Alexa还抱有感情的人心底里都会质疑,没有盈利作为后盾的Alexa还能走多远?

        从 2008-12-07好到今天(2008-12-11),Alexa已经整整五天停止更新了。我不知道这个情况对于向我一样天天查看Alexa排名的(别仍我鸡蛋,我用这个工具查的,每天自动查2000个网站数据 )Alexa 粉丝一种什么样的感觉? 开心?嘲讽?还是免不了爽一下,Alexa这种服务水平早该倒闭了。五天不更新,或许没什么大不了,你看,inquisitr 上的这为朋友说,我还碰到过8天没更新的情况呢 ? 难道国内和国外看的Alexa情况不一样?

        不更新也就算了,你们连个风也不给大家放。就连Alexa停止网页搜索服务的内容还是东家Amazon发布的,这也太不厚道了。
        
        Alexa你离寿终正寝还有多远?
        丧失了创新精神、没有和用户良好的沟通机制,这样的Alexa排名服务我们不要也罢。
Alexa网站最近的变化:
1、迫于盈利压力,Google Adsense广告增加
2、网站小幅改版
3、提供全球100万网址下载
4、更新相关链接算法

2008年11月28日
SNS网站自动加好友外挂:支持校内网、开心网等

        大概在半年前,想学习一下用WTL做开发。就写了一个小程序:SNSBrowser
当时的想法很简单,就是登陆后,能对校内网、开心网、海内网和5Gme还有UCHome进行自动添加好友的功能。

当时做完(bug多多)就放到一边。

没想到最近SnS网站的外挂冒出的速度比SnS网站还快。在这些外挂中应有尽有、买奴隶、抛媚眼、搂搂抱抱好不热闹,照这个势头快到了有一个SNS应用,就有一个SNS应用外挂了。
不过这些外挂里面自动添加好友的外挂似乎没有,于是我的SNSBrowser也占了一点光,被很多人提及,更有朋友发信询问更多的事情。

废话不多说了,使用的方法如下:

1、打开SNSBrowser以后,需要手动登陆(开心网、校内网、5GMe网等)。
2、在菜单项:SNS网站列表中选择你刚才登陆的网站;
3、点击自动添加好友;
4、坐下来喝杯水,享受你的好友不断增加的乐趣吧。
对于 90% 的SNS网站用户来说,大部分人都会义正言辞的说,这个有什么用。
不过对于做网络营销的人来说…..。就像当年的LumaQQ一样,仁者见仁吧。

下载地址:http://data.domolo.com/snsbrowser

2008年03月26日
不选择使用Lucene的6大原因


     Lucene是开放源代码的全文搜索引擎工具包,凭借着其强劲的搜索功能和简单易用的实现,在国内已经很普及,甚至一度出现了言搜索必称Lucene的盛景。上个月Lucene的开发团队发布了 Java Lucene 2.3.1 ,相信很多朋友们都用上了。在国内对Lucene的介绍可以分为3块儿:
第一类是:以车东Lucene:基于Java的全文检索引擎简介 为代表的基础入门介绍;
第二类是Lucene倒排索引原理和Lucene软件包、实现类的介绍;
第三类是以中文分词为中心的介绍;

     任何一个软件,包括所有伟大的软件都有这样或者那样的“缺点”和各自适用的领域,Lucene也不例外。在国内对Lucene这个软件包的批评,似乎没有 看到过。可能大家都忙于做项目,纵然Lucene有再大的缺陷,凭借着Lucene良好的口碑,也不会说上一句不是。

     今天在阅读LingWay (一个做垂直的语义搜索引擎)的CTO Cedric Champeau 先生的博客是发现有一篇题为:Why lucene isn’t that good 为什么Lucene并不是想象的那么棒 的文章:Champeau 开门见山指出了Lucene的6大不足之处,鉴于 Lingway 公司使用Lucene已有好几年的历史,我相信Cedric Champeau的对Lucene的评论还是值得一读。

不选择使用Lucene的6大原因:

6、Lucene 的内建不支持群集。
        Lucene是作为嵌入式的工具包的形式出现的,在核心代码上没有提供对群集的支持。实现对Lucene的群集有三种方式:1、继承实现一个 Directory;2、使用Solr 3、使用 Nutch+Hadoop;使用Solr你不得不用他的Index Server ,而使用Nutch你又不得不集成抓取的模块;

5、区间范围搜索速度非常缓慢;
       Lucene的区间范围搜索,不是一开始就提供的是后来才加上的。对于在单个文档中term出现比较多的情况,搜索速度会变得很慢。因此作者称Lucene是一个高效的全文搜索引擎,其高效仅限于提供基本布尔查询 boolean queries;
4、排序算法的实现不是可插拔的,因为贯穿Lucene的排序算法的tf/idf 的实现,尽管term是可以设置boost或者扩展Lucene的Query类,但是对于复杂的排序算法定制还是有很大的局限性;
3、Lucene的结构设计不好;
    Lucene的OO设计的非常糟,尽管有包package和类class,但是Lucene的设计基本上没有设计模式的身影。这是不是c或者c++程序员写java程序的通病?
    A、Lucene中没有使用接口Interface,比如Query 类( BooleanQuery, SpanQuery, TermQuery…) 大都是从超类中继承下来的;
    B、Lucene的迭代实现不自然: 没有hasNext() 方法, next() 返回一个布尔值 boolean然后刷新对象的上下文;
2、封闭设计的API使得扩展Lucene变得很困难;
   参考第3点;
1、Lucene的搜索算法不适用于网格计算;

详情可以查看:Cedric Champeau 先生的博客:Why lucene isn’t that good 为什么Lucene并不是想象的那么棒

 

2008年03月16日
FriendFeed上的中国人


FriendFeed 刚推出后,很快引爆流行,出现了大量的博客 报道。

对我来说,FriendFeed 似乎没有什么用处。。。,至少目前这个阶段是这样的。

当然,没用处,但并不等于不好玩。

我的玩法是这样的:
1、登录
2、打开everyone标签
3、查看有中文字符的博客
4、如果还没有订阅,就 订阅
5、翻页,重复 3-5步。

在玩了半个月后,我有些厌倦了。这半个月的成果是:

1、Subscriptions 95

2、You are subscribed to 107 people 。

够了。

并且发现我这个玩法,可以机械化,于是,就有了这个:FriendFeed 上的中国人

http://www.domolo.com/friend_feed_china

COM本质论 COMCHAT 源代码下载

COM本质论是本好书,Don Box 把什么是COM很清楚的写了出来。

这真是本好书,我是说:这本书的纸张质量也不错,我手头的这本COM本质论半截掉到洗衣盆里泡了半个上午后,晾干了还竟然能看,阿弥陀佛….

这本书有一个经典的com例子代码 comchat ,据说很难找到,COM本质论 COMCHAT 源代码很难找到,而且还有一个常见的问题。

请点击这里下载:  COM本质论 COMCHAT 源代码下载

2008年02月19日

为什么2007年的图灵奖选择了模型检测技术
像树一样成长,刚听完俞敏洪的在赢在中国的演讲———-题记

2007年图灵奖授予了在模型检测技术领域的奠基性贡献的科学家:Edmund M. Clarke、E Allen Emerson和Joseph Sifakis三位科学家。

什么是模型检测技术呢? 看看wikipedia 上的定义吧:
Model checking is the process of checking whether a given structure is a model of a given logical formula. The concept is general and applies to all kinds of logics and suitable structures. A simple model-checking problem is testing whether a given formula in the propositional logic is satisfied by a given structure.

简单的说:是一套用于判断硬件和软件设计的理论模型是否满足规范的方法。这可真是个抽象的描述,看起来似乎离我们很遥远,遥远的只有像英特尔研究中心副总 裁Andrew Chien才能对模型检测技术用一句话来评价:“英特尔和整个计算机工业都从他们的贡献中直接获益”。

那模型检测技术是不是离程序员也很遥远呢?图灵奖作为计算机界诺贝尔奖,如果把奖项颁给一个离程序员很遥远的技术,还真说不过去。

带着这个疑问,我浏览了wikipedia上长长的一窜模型检测技术的项目,还好不出所料,找到了下面几个项目:

1、Java Pathfinder :是一个用来认证java执行字节代码的系统。类似一个java虚拟机用来检测软件运行状态的验证系统。
2、Mono Model Checker :跑在mono 开源的.net平台上。用来自动侦查 CIL 字节码错误的程序。目前的版本支持CIL的死锁 deadlocks 和 断言冲突 assertion violation 。

3、对于c++ 感兴趣的人还可以看看这两个项目:
      State Exploring Assembly Model CheckerBounded Model Checking for ANSI-C

举个例子吧,在开发中,利用测试库junit 和 dotunit 写测试代码已经逐渐普及开了,比如下面这段:

public void testToppingsOnNewPizza(){  Pizza pizza = new Pizza();  List toppings = pizza.getToppings();  assert( (toppings.size()==0) );}

注意上面加黑的这句: assert( (toppings.size()==0) );

这段代码我们用来检测:pizza.getToppings()  的大小是否为0。那么模型检测和上面的测试代码有什么不同呢?

不同点在于:现在的测试库用来判断结果 , 而模型检测用来判断过程(逻辑)是否符合要求。

我们常说,不但要关注结果,更要关注过程。模型检测就是对过程的关注。

无疑,现在写程序的时候,模型检测的过程,是由广大程序员完成的。如果这个过程可以由机器完成的话?那不是就是实现了自动编程吗?据说word的创始人开发者正在干这样的事儿… ,不知道这个老头有生之年能不能实现他的理想。

当然,我也相信在更高级的人工智能技术中,模型检测技术会大展拳脚。

又是个遥远的事情,洗洗睡吧。

机器智能将会在2029年达到人类的水平
做最重要的事情,并且只有最重要的事情—题记

在过年回家的火车上,有一本《科幻杂志》吸引了我的兴趣。刚过了而立之年,还没有过上小康生活的我,早已对科幻失去了儿时的兴趣。这本杂志吸引我的地方是那份很有分量的序言。由于找不到电子版,我这里只大致把作者的观点重述一下。

作者的观点是:智慧与智慧载体的组成成分无关,而是与这些载体的组成方式有关。还好刚写到这句,我找到这篇文章,大家可以在这里查看:上帝死了?——人工智能的复杂性会最终超越人脑么?

刚才在digg的推荐列表中,看到了这篇文章:Machines ‘to match man by 2029′。

2029年似乎是个很遥远的未来;大多数人对于此类预言的反应估计和我一样,看看标题就够了。不过因为上面文章还在我大脑中有些印象,所以我看了一下原文。

也推荐你看一下,因为预言者是  “US National Academy of Engineering” 选中对21世纪重大科技有影响力的18个人之一,这其中也包括google创始人:Larry Page 和 基因工程的先行者:Dr Craig Venter。

下面是原文:

Machines ‘to match man by 2029′

http://news.bbc.co.uk/2/hi/americas/7248875.stm

Machines will achieve human-level artificial intelligence by 2029, a leading US inventor has predicted.

Humanity is on the brink of advances that will see tiny robots implanted in people’s brains to make them more intelligent, said Ray Kurzweil.

The engineer believes machines and humans will eventually merge through devices implanted in the body to boost intelligence and health.

"It’s really part of our civilisation," Mr Kurzweil explained.

"But that’s not going to be an alien invasion of intelligent machines to displace us."

Machines were already doing hundreds of things humans used to do, at human levels of intelligence or better, in many different areas, he said.

Man versus machine

"I’ve made the case that we will have both the hardware and the software to achieve human level artificial intelligence with the broad suppleness of human intelligence including our emotional intelligence by 2029," he said.

  We’ll have intelligent nanobots go into our brains… to make us smarter

Ray Kurzweil

"We’re already a human machine civilisation; we use our technology to expand our physical and mental horizons and this will be a further extension of that."

Humans and machines would eventually merge, by means of devices embedded in people’s bodies to keep them healthy and improve their intelligence, predicted Mr Kurzweil.

"We’ll have intelligent nanobots go into our brains through the capillaries and interact directly with our biological neurons," he told BBC News.

The nanobots, he said, would "make us smarter, remember things better and automatically go into full emergent virtual reality environments through the nervous system".

Mr Kurzweil is one of 18 influential thinkers chosen to identify the great technological challenges facing humanity in the 21st century by the US National Academy of Engineering.

The experts include google founder Larry Page and genome pioneer Dr Craig Venter.

The 14 challenges were announced at the annual meeting of the American Association for the Advancement of Science in Boston, which concludes on Monday.

2007年10月26日

seo优化:把百度放进数据库

        有时候我想,能把百度的数据放进数据库,用广大程序员熟悉的sql语句查询百度的搜索结果应该是一个不错的主意。在这方面Google早已经跨出了一大步,利用Google Search API 把Google的搜索结果放进数据库是很容易办到得。当然,Google Search API 有相应的限制,防止被人恶意使用。而百度则忙着在贴吧,新闻和 C2C 上大展拳脚,这些努力除了让百度的股价一再飙升外,对程序员来说一个 BaiDu Search API 仍然是遥不可及的事情。

        每家公司都有自己的策略,百度也不例外。既然百度不提供 BaiDu Search API ,这并不妨碍我们把百度放进数据库的想法往前推一步。

        实际上已经有人在这么做了(中文搜索关键词广告报告之广告主分析 ) , 而且还拿到了 IDG 的投资。

        这篇文章也给你一个工具:把百度放进数据库。 前提很简单,你必须有一个很大,很大的数据库。10个oracle , 100 个oracle,1000 个oracle ?打住吧,这不是本文的中心。

没人想全面 反向百度 (Reverse),就像 反向QQ的珊瑚虫会挨打一样。我们只做一个简单的。

点击这里下载:BaiDu2DB , 把百度放进数据库,没数据库的就放到 Excel 吧 :-)

http://www.domolo.com/seo_software

 

下载地址:http://www.domolo.com/seo_software

2007年10月14日

SEO 比比看: Che168.com  VS  pcauto.com.cn

        做SEO工作,平常少不了多观察各种网站优化的案例。俗话说的好,懂行的看门道,不懂的看热闹。面对五花八门的网站,如何才能从专家的角度,以最快的速度来了解被观察网站的优化方式呢?如何才能最快、比较全面的评判网站的优化效果呢?相信这是专业SEO面面临的共同的困难。

        这个系列将帮助您来解决上面提出的问题。这里我就用 che168.com 和 pcauto.com.cn 为例来一步步破茧抽丝吧。

        据说 che168.com 是王通优化的一个案例。 并且 che168 在google的排名是“一件恐怖的事情”。原话见“CHE168是他最近一年的案例,大家可以查一下相关汽车品牌在GOOGLE的排名,80%都在第一页,有些热门关键词甚至在第一位,这是非常恐怖的事情”。

这种恐怖的事情是如何发生的呢?

要做到快速,全面,很显然需要工具的帮助了。我这里选用: 多么乐站长SEO助手

XP用户请先下支持库:立即下载微软支持包 XP用户请把解压后的文件放在C盘根目录下执行.

第一步:了解 che168.com  和 pcauto.com.cn 的 域名,目录的组织方式:

这是 che168.com 的子域名列表:

这是 pcauto.com.cn 的子域名列表:

第二步:查询以上各个子域名在 google ,baidu ,yahoo 的索引量:

以下是 che168.com 在google 上的索引量。

以下是 pcauto.com.cn 各个子域名在 google 的索引量。

了解了子域名的分布,查看了他们的索引量,下一步,我们分析关键字排名。