爬虫的抓取的两种方式!

Posted by houzhiwangluo @ 7:08 pm, 05月 30th, 2012

      好几天没有更新文章了,不知道该写一些什么了。后知在这段时间里,发现自己是越来越菜了,好多东西掌握的不够踏实。后知的这个河北SEO博客,起初就是为了做好排名,之后又觉得没有什么意义,就直接是和大家分享东西的了。把排名没有放在心上了,反而石家庄SEO、石家庄优化这两个关键词倒是上去了。这一段时间内,发现用数据分析来做SEO是越来越重要了,同样也感觉到做SEO要基于了解搜索引擎的基础上来做,这里后知和大家说下搜索引擎爬虫抓取的两种方式,希望哪里不对的地方进行拍砖。
      首先,搜索引擎爬虫在进行抓取的时候,会采取两种方式来抓取:深度优先和宽度优先的方式进行爬取。

      第一种,深度优先遍历抓取。深度优先抓取就类似后知博客这样的,石家庄SEO首页>石家庄网站优化基础>下级栏目,首选抓取是以这样的方式来抓取的,等到抓取完毕这些栏目之后,在进行抓“石家庄网站优化基础”栏目下的文章,这样就是深度优先策略,类似于家庭关系一样。长子、次子然后是长孙等这样的关系,后知博客没有那么深的栏目,所以看不到这样的效果。
      第二种,就是宽度优先的遍历抓取。这种方式的抓取,深度是不断的在增加的。类似于这样的“首页 > SEO技术 > 网站日志如何分析”爬虫来的你网站,会顺着一个栏目一级级向下抓取,等这个“SEO技术”栏目下被抓取完毕后,在进行其子下一个栏目。这样的宽度抓取是有一定的原因的,基于网站布局的问题,往往是重要的页面距离种子站点(种子站点是爬虫开始抓取癿起点)是比较近的,这样符合习惯。所以,你可以看到一个大型门户站点,最容易看到的是一些实事新闻,这点是距离种子站点越近可以理解为越重要的页面;其次,中文万维网的深度没有我们想象的那么深,到达一个网页路径不仅仅是一个,所以爬虫总能找到最近的路径到达当前页面,据相关数据表明中文万维网的深度为17;还有一点就是,多爬虫的合作策略,基于这个规则大部分的抓取的起始网页为站内的,逐渐的才会转向站外的链接,抓取的封闭性是比较强的。
 

    基于上述的两种抓取方式,我们可以看出,我们尽可能的节省爬虫的抓取时间,因为爬虫到你网站的时间是一定的,缩短其单页面的抓取时间会提高你网站的抓取量,进而会影响你网站的收录量,最终能够影响到你网站的SEO流量。根据以上两种方式,来合理布局你网站的内容,让爬虫能够很容易的抓取到你想要被抓取的东西,这样合理的布局好内容,让网站的seo流量有一个突破瓶颈的提升。
     本文首发于后知博客:http://www.hozseo.com/

偏门SEO如何打造网站流量!

Posted by houzhiwangluo @ 5:44 pm, 05月 20th, 2012

    后知今天晚上听了一节很给力的分享,感觉非常值得。是途牛网的夜息来给大家分享的,感觉非常厉害,这里就给大家分享下,如果有编辑错误的话还请大家谅解。

    在百度出台的一份文件报告中提到,2%的搜索的关键词带来15%的查询,就是2%的关键词是占据了整个搜索的15%。其中,品牌词这个搜索是比较高的。而且,品牌词转化率很高,搜索品牌词的人基本上都是想要购买的。

    这里夜息给大家分享的是婚纱案例。他曾经操作过的一个婚纱的案例,这个网站只做是了seo,但是从后台发现很多流量都是从品牌词过来的。所以,品牌这个词来说做好了也可以带来相当可观的SEO流量。还有就是,3%的词带来15%的查询中里很多都是多品牌词,从而可以看出品牌词也是相当重要的。
 
    这份报告中还提出,65.8%的查询词只出现过一次,也就是说这65.8%的搜索词用户只搜索了一次。进而想到,我们在做SEO的时候,可以拓展别人没有想到的长尾词竞争力不强的词,这样的是比较轻松而且做出来的SEO流量也是相当可观的。在这里夜息给大家举了一个例子。就是同程网,在选择关键词的时候,一般的长尾关键词都被行业内的巨头所占据,那么如果再来进行竞争的话,还是比较吃力的,虽然是长尾关键词,但是竞争同样是很大的。所以,同程网的SEO就改变了策略。他们在选择关键词的时候,选择了所有的地标+酒店的关键词来进行操作,比如XX路酒店、公交站牌旁的酒店、学校、地铁、XX饭店旁边的酒店,这些都是其他人没有做的,他们将这些词做上去后,流量提升还是很多的。
  
    这里夜息提到一个词库,每个网站都有自己的词库。我们要根据词库中去挖掘一些竞争小的长尾关键词,这样不仅仅是操作轻松,而且同样可以获得可观的SEO流量。反而,我们常规考虑的长尾关键词,被大型站点所占据,我们竞争力还是比较小的。由于,65.8%的词用户只搜索过一次,其他网站不可能把这么多的词挖掘到,所以我们还是有很大的蓝海去挖掘长尾关键词的。对于这些词来说,很多人都是没有做的,如果我们筛选挖掘出来之后,进行操作。那么,当用户搜索的时候,只有你的站点匹配,用户也只能来的你的网站,这样就很有可能给你的网站带来效益。

    关于词库的建立,自己可以从网上找,像一些关键词挖掘工具、采集什么的都可以建立好一个词库。

    对于关键词的挖掘总结,如果想操纵好一个网站的话,可以进行品牌词的挖掘,可以利用这个来截流。比如,麦包包网站就是把淘宝网做上去了,别人搜索进来还是有很大的成交的;我们要从我们自己网站的词库中,挖掘到别人不做的关键词,找到那些竞争力不强的关键词来进行操作。这里夜息又给大家分享了一个关于他自己的操作的过的案例。eg:婚纱行同样是竞争比较大的,一般的筛选到的关键词就是婚纱的款式、婚纱的颜色等,而夜息筛选的一些词是结婚需要的酒店、拍婚纱照的方式,因为结婚的人都需要在酒店举行婚礼,可能还需要乐队呀什么的,进行采集一些内容放到自己的网站上,带来很大的利益。

    而我们一般常规的方法就是,制定好目标关键词之后,挖掘一些长尾关键词,把这些关键词布局到网页之后,增加下密度啊什么的,进行操作。这种方式很累的,不可能覆盖所有的内容的,所有我们可以根据夜息分享的来进行操作,我想你也可能做好一个网站的。
   

    关于伪原创。

    对于常规的伪原创的话,一般我们都是采集过来一篇文章,进行换词、调整段落等,其实这种方法效率是非常低的。而我们可以站在搜索引擎的角度上来考虑。根据目前搜索引擎主流的去重策略,每个页面都有专门的编号,搜索引擎首先提取指纹。比如,你的文章有100个文字,那么搜索引擎从中找到5、6个你页面中独一无二的词,进行散列。散列到4段16字节的数值中,在这4段数值中,取去掉公共的部分。比如,取第一段是相同的,然后余下的三段在网页中进行对比,这样就能够去掉重复的。如果你只是简单的换词、调整段落的话,根本就没有把指纹去掉,这样做的全部都是无用功的。

    当然还有其他算法了,就是提前特征的指纹,算是一种投机取巧的方式吧。一般用于报纸、论文等的去重,比如就是提取页面中的标点、助词、停词等,提取这些词在页面中的分布;还有就是,提前这些词的前后的词语是什么,作为一种指纹进行对比。当你了解了这些,就会发现我们传统的伪原创效率是非常低的。
 
    在这里还有提到四点就是:
  
    相同内容相同模板  这样的类似于镜像站,搜索引擎对于这样的网页的话,会进行聚类,讲这些网页聚成一个网页。
   
    相同内容不同模板  这样的类似于转载,聚类不一定的。
 
    内容略不同模板相同 很有可能被搜索引擎判为作弊,如果是转载过来的话,那么内容中应该是相同的,如果你调整了内容的话,可能是作弊方面的,比如采集。

    内容略不同模板不同 这种类似大型门户网站的转载情况,比如新闻类的,就一件事,内容怎么改也是大同小异,这种不会类聚,搜索引擎会放出来的。
   
    关于伪原创的话,内容很重要,但是模板同样也是非常重要的。这里处理模板的时候,需要注意一些细节方面的问题。比如说,如何应对全站的重新生成静态页面。我们的网站都是更新的,在不断的添加内容。每次添加之后,都会生成一个静态页面,而我们大多数的网站,都会有一个最新文章版块。当我们添加内容的时候就会显示,如果我们在同一个时间段内更新了大量的文章的话,那么这些页面上的最新文章版块的链接是不一样的。比如,你如果发一万篇文章的话,需要花费一定的时间,在你发布了一篇文章之后,发布的这篇文章页面上的最新文章版块链接生成,这样以此类推。这一万篇文章页面上的最新文章版块链接都是不同的,这样是建立了一个灵魂的内部链接。如果,当你要改动网站模板或者搬移网站的时候,在重新生成全站页面之后,那么这个最新版块,将会全部调用此时最新的文章。那么,以前那么强大的内部链接结构就会被彻底打乱了,这一万篇文章页面的内链都会指向当前的最新文章。本来很好很强大的内部链接消失了,因而可能会导致排名消失,进而影响SEO流量。所以,这种情况下,你什么都没有做,但是排名和流量都下下降甚至消失了,这就是一个模板处理的细节。

     还有就是网站的随机调用版块,如果你网站的内容是比较多的话,那么在随机调用文章的话,会影响到服务器速度,这个同样会影响SEO流量的,如果不知道的话可以参考国平的博客。而且在调用内容的时候,最好还是相关内容的调用。我们需要注意的就是伪原创需要站在搜索引擎角度来进行考虑,而目前对于搜索引擎来说,用户体验是越来越重要了。在熊猫算法出来之后,有一批电商站进行了调整。

    举例:电商站一般都有分面导航(过滤器),当用户搜索产品的时候,他想要找到的是一个产品,从而进行购买行为,但是当你把几百个产品展现给他的时候,基本上是没有什么用的。用户不可能都看一遍,他需要进行过滤。比如,搜索一个包包,那么搜索结构的产品中可能会出现几万个包包,他需要在过滤器上点击下一个条件,比如喜欢棕色的,进入之后,发现包包有点贵,就会选择了一个便宜点的价位,这样是非常有利于用户的,这个就是用户体验。像阿里巴巴这样的站是做的比较好的,我们做SEO的总是说要做UEO什么的,用户体验要落到实处。
    
    顺带说了下,发外链的问题。其实,大家都懂的,只是发多发少的问题了,需要注意两点就是,一个是外链的速度,另一个是相关性。而就目前来说,搜索引擎依靠外链来排名已经降低了不少,而未来也会越来越低。以前,搜索引擎初期依靠链接来判断排名。而对于搜索发展至今的话,也越来越转向用户体验了,就想其官方说的,链接是否传递权重要看用户或者网站是否是真心推荐。而且目前来说社交化的发展也是一种趋势,比如百度分享,这些对排名都是有影响的,未来这些可能会作为排名的一个要点。伪原创的话不要怕重复,你把精力放在其他重点上就可以了。

    SEO数据化。

    我们大部分的SEO是为了分析而分析,这样的话根本不知道分析出来后改做什么。我们要把数据分析的很细,这样的话从中找出问题的话,进行解决。尤其是爬虫的数据,像抓取饱和度、抓取深度、常见入口页面、每天到访次数、停留时间等,这些开发爬虫的工程师都在关注,我们SEO又有何理由不关注呢?在搜索引擎爬虫单位时间内抓取量是一定的,这个量的多少是由网站本身权重来决定的。网站权重高,抓取量就大,网站权重低抓取量就比较少。如果在一个权重比较低的网站,页面也比较多的话,搜索引擎爬虫也不敢确定你网页的质量,如果它拼命的爬取的话,就会出现抓取错误,抓不到更好的页面了。

   爬虫抓取你网站的量是一定的,如果它在抓取很多没有用的页面的话,那么抓取有用的页面就会很少了,所以我们需要分析日志,分析爬虫抓取来进行调整。比如,夜息有一个朋友做了一个网站,流量排名还比较不错;而用这套模板重新做了个网站,但是却发现网站收录都不怎么收录,于是查找日志,发现搜索引擎爬虫只抓取图片和CSS文件,而html页面根本都不爬取。然后用谷歌网站管理员工具测试,返回的是500,找到是空间配置的问题,阻止了爬虫网站,在更换了空间之后,问题就解决了,这个就是查询日志的效果。
  
   另外就是夜息在途牛网的一个天气频道的案例。

   这个频道每天只有几百流量,并不是很好于是就查询了日志。发现这个频道每天蜘蛛抓取5000个页面,但是发现有3000个页面是404。于是便开始查看了网站这些URl,发现这些链接也确实是404页面。原因是标准化的meta标签写错了,导致这么多404。改变之后,抓取正常流量也就上升至几千了。那么如果这个案例就这样结束的话,也没有什么意思。继续在分析天气频道,现在发现3000个404变为1000个404。然后,就把这些url导出来,但是发现这些页面能够打开,而搜索引擎爬虫爬的时候就是404。虽然很是没有头绪,但是归根到底还是需要分析日志。后来就拿所有的日志信息继续来分析,发现这些404的url报错是很有规律的,都是在半夜1、2点时间内报错,但是服务器并没有关机啊什么的。而后就开始研究代码,很有可能是半夜程序、服务器啊什么报错。大家都知道,预报天气的话不是预报出很长时间的,就是预报一周的,所以每天需要生成今天之后的七天的天气页面的url,因为预报天气的这些数据都不是我们网站自己的,我们都是根据中国天气气象官网上采集下来的。我们每天发布天气信息的时间比生成预报天气的这个链接要晚。也就是说,半夜我们可以查询七天后的天气,但是我们还没有更新,所以导致爬虫出现404。之后,我们就修改后,就慢慢的不出现这种情况了。

    对于这种问题,如果只靠经验、程序的话,是很难去发现的,只有通过数据分析的力量解决才行。SEO以数据来指导,调整相应的策略。后知在今晚听了分享之后,感触很大,自己确实还是一个很菜很菜的,需要不断的来学习和进步,希望大家多多指点后知,让后知继续进去前进。

    本文首发后知网络博客,转载请注明链接:http://www.hozseo.com/index.php/375.html