网站质量评判标准

网站质量是是衡量一个网站好坏的标准,目前搜索引擎还没有公开的统一标准,但是根据各个搜索引擎的公告和一些数据的报告来看,我们可以大致评判一个网站质量好坏的标准有那些。

网站质量评判标准-卢松松博客

1:网站内容

网站内容的评判到目前还没有一个好的评价方法,它主要是靠用户进行内容的评判。而访问者的评判方法也很简单:好的内容继续阅读,不好的直接走人。

衡量一个网站的内容好坏与否,可以通过几个大致的指标进行判断:

(1),自然的链接是用户主动转载了你的网内容,一个网站上的内容如果得到了用户的认可,那么对搜索引擎来说也是非常值得收录的,并且还能算做有价值的外链。

(2),通常情况下,访问网站的用户在网站上停留的时间越长,说明网站提供的内容就越有价值,用户愿意花更多时间进行阅读和浏览。

(3),如果网站内容够好,那么用户会访问多个相关页面,我们可以称之为PV。

(4),网站的内容质量越高,那么网站的老用户数量就会越多,新用户会再次来访你的网站,也就是RV(重复访问者)。

虽然网站的内容也没有统一的衡量标准,但是可以从上述几个方面大致看出一个网站的内容建设得当与否。如果将一个精心编排的网站内容和一个靠采集、复制过来的网站进行比较,可以很明显的看出其中的区别。

而且从广告盈利角度来讲,内容质量越高,访问者越会对网站产生信任,对页面上的广告也容易信任,从而进行点击。也就是说,也可以通过某个单一页面的广告收入来判断内容的好坏。

网站存在的意义是为访问者提供有价值的内容,但目前很多站长急功近利采用采集+伪原创的方式建立一个毫无价值的网站,既不能让网站有良性的发展,同时也是搜索引擎打击的对象。

2:网站流量

网站流量顾名思义就是网站的访问量,主要是指IP、UV、PV等一些常规数据,通常用于衡量网站质量的指标是网站的PV。

网站流量是最通用也是最有效衡量网站质量的标准。从联盟广告的角度来讲,网站流量越高,那么收入也就越多。所以说,提升网站流量也就是提高网站的收益能力,同时也是评判网站质量的一个标准。

3:网站用户体验

网站有良好的浏览体验包含以下几个方面内容:

网站具有清晰的层次结构。

网站有良好的性能:包括浏览速度和兼容性。

网站的广告不干扰用户的正常访问。

合理设置网站的权限。

做好用户体验也就是用户对网站的黏度。网站的用户体验设计的越好,代表来访者越喜欢网站,用户能方便快捷的找到自己需要的信息,也更愿意多在网站上停留,对站长来说,如何提高用户体验是网站的头等大事。

搜索引擎优化讲究的是对网站功能、网站结构、页面布局、网站内容综合性的设计,而用户体验讲究从网站印象、网站功能、网站实用性、网站内容等综合因素来改善网站环境。合理的推广与提高用户体验,是提高网站转换率的重要因素。

其实用户体验是非常宽泛的一个概念,应该说任何有利于用户的相关设计都可以叫做用户体验。

作者:卢松松 本文地址:http://lusongsong.com/reed/510.html

09月 11th, 2012 by aぞβσ | 评论关闭

网页中单个页面如何做好SEO优化

做为站长你可能经常听到一句话:内容为王。其中的“王”实际就是指用户所需要的内容,对于搜索引擎优化来说,任何排名靠前的页面,首先他必须有一些优质的内容。

当然这里我们并不想谈及如何把内容做好,而是想谈下网页中单个页面如何做好SEO优化,同时又能提高用户体验,让用户更容易接受你的内容。

1,网页内容的长度

对于搜索引擎优化来说,理想的网页内容长度不能小于250个字。这里我们所说的250个字是指网页中的实际内容,不包括网页头部,侧边栏以及底部。也就是只纯粹的内容。

因该说对于单一网页来说,250个字是最低限度,如果网页内容能超过1000+个字,那么在搜索引擎中可以获得更好的排名。当然某些特殊的网页不一定有250个字这么多。

比如一些电子商务网页或者博客网页等。在这种情况下,我们就要尽量将网页的内容扩大,其中最简单的一种方法就是在内容上部增加一些固定的tag关键词或网页导航链接目录。

不过这样做还不一定能获得比较好的排名,因为搜索引擎一般都会无视一些固定位置的链接信息。所以这里我们还做第二部优化,就是在这些链接上部再加上一些相关文字。

这里的相关文字是指与网页所描述的信息相关内容,字数大概在300字左右,最少也要超过你的meta内容的2倍以上。

2,网页内容的段落使用

这里的段落不仅对于搜索引擎有用,同样也可以提高用户体验,之前我们已经知道单一网页内容不能少于250字,包括你之前加上的关键词链接与描述内容。现在我们将为这些内容进行分段,最好的分段数量是3~4段,但绝对不要少于这个数字,比如我的习惯是最少将网页内容分成4段。

3,网页内容的相关度

一般来说每个网页都会有一个相关性主题,所有的关键词也是围绕这个主题,但有时候我们可能会需要在网页中使用多个主题,比如引用其他的说明文字等。这时候对于内容的排版就需要使用如<h2>和<h3>这样的HTML标记,其中关键一点就是,如果某些段落文字与主题无关,最好将其放在其他的标记中,比如主题相关内容使用<h2>来标记,而与主题无关段落使用<h3>或<h4>等来标记。

当然如果你的内容都和主题密切相关,那么就只需要用<p>就行了。

4,关键词密度

这个话题讨论很多次了,基本上可以接受的密度在2%~5%。其中标题中至少要出现一次关键词,这里我们都假设你的网页都只做一个关键词。如果是做2个及以上关键词,那么文章标题中最好也只出现一个最好。

以上内容来源转载:站长之家

09月 11th, 2012 by aぞβσ | 评论关闭

“利润如何来”淘宝店铺营销之道

 淘宝店铺、商城是现在非常主流的一种小型创业项目:低消费、低成本、自由化、可控性。以下就来谈谈运营一个淘宝店铺需要怎么做才能有利润到手:

一、引入客户

首先一个明确自己引导客户进店的目的是什么,打个比方就是“引入鱼儿,充实鱼塘”。一个淘宝店铺如果连最基本的客户都没有又哪来的利润可言呢!明确了目的以后就应该放“鱼饵”引诱或引导客户咬钩了,至于抛什么样的“鱼饵”才能吸引顾客产生购买欲望就需要自己多动动脑筋了。通常就是挂上低价促销、免费试用、特价折扣、限时抢购、清仓甩卖、便宜秒杀等让人看了能感觉这件商品有便宜可占的字眼,先吸引顾客进店逛或查看。既然你抛了“鱼饵”引诱客户进来观看,那么你商品的价格也应该对得起你抛的“鱼饵”吧。不要标题写个免费试用结果人家拍的时候却是需要钱的,这样的话严重有种欺骗顾客的感觉马上就会离开你的店铺而且再也不会考虑回来了。所以你标题与商品的价格应该对应的降价才对得起顾客,顾客选购完还可以发放小面额的优惠券供下次来本店购物时抵用。店铺也可以适当做点友情链接、互换广告位等方法来引流量,当然必须寻找不同行业的而不换用行业的竞争对手。

二、培养顾客

1、增进客户的信任感:在与顾客沟通的时候可以适当的做些“无风险承诺”,这样顾客原本购物心情就会更新轻松、放心选购你的产品。成功完成一笔订单交易还没到放松的时候,完成交易后还需要有完善的售后服务来稳定客户对产品的评价。在处理与顾客的利益纠纷问题时需要以客户的利益为优先出发点,宁愿自己少赚点或亏一点也别让顾客失去在你店铺里的购物心情,一个优秀的售后服务可以真正打通与客户的舒适沟通建立感情。总是回避顾客的正面问题是最失败的售后处理方式,这样迟早你的店铺会因为没业务而关门大吉。在好几个客户同时询问你问题时就需要分清客户的主次了,老顾客需要优先处理可以用委婉的语气让新顾客稍等下下。可以为进店铺购物过的朋友创建一个QQ群沟通工具,把所有交易过或有交易意向的客户都拉近群里。这样有一个很大的好处就是方便定时进行沟通互动:商品跟踪、新品通知、节日问候、会员商品、商品活动等推广行为都可通过这个群来通知客户们。

2、建立客户的依赖感:店铺的商品风格需要定位准确,建立与之相关联的一些产品定位,精准的细分化商品定位能占领顾客的购物欲望。当顾客想选购这种类型的产品时第一个考虑的就会使你的店,而不是自己去淘宝慢慢搜索。运营时还需要考虑的一个差异化突破问题:细分市场差异化、产品差异化、用户体验差异化,要知道社会是在不断分化的而不是融合。

三、挖掘顾客的终身价值:做好让顾客意犹未尽的精美试用装采用抽奖等形式给予客户惊喜的连环式销售,这样会让顾客产生一种重复购买的欲望,要知道真正的利润来源永远是第二次销售的循环。

本文来自权威鞋行业电子商务B2B资讯平台-环球鞋网(http://www.shoes.net.cn/)推广部门原创文章,转载请注明出处,谢谢阅读!

08月 29th, 2012 by linbin | 评论关闭

网站外部优化与搜索引擎搭建的“桥梁”

 简单诠释下网站外部优化可以通过哪些渠道来建设:

1、打造一个属于自己网站的推广博客,定位好这个博客的标题及相关板块的内容设置,博客发布的内容需要与自己网站定位相关性联系。每篇博文中可以适当的带3-5个锚文本链接到自己的网站或子站等页面。最好在文章中第一个出现的关键字上添加锚文本,但是需要注意的是文章中同样的关键字最好只添加一次锚文本,允许不同的关键字添加锚文本指向用一个的URL。建议可以选择一些高权重的门户博客多注册几个账号轮换推广,几个博客之间可以互相添加友情链接或文章底部添加互联。

2、书签设置时可以选择用关键词做title,这样提升这个关键字在蜘蛛眼里的重要性。tag分类标签越多越好,它可以自由地不考虑目录结构的给文章进行分类,各个tag之间的关系是一种平行的关系,但又可以根据相关性分析将经常出现的tag关联起来而产生一种相关性的分类,这样可以大大提升与搜索引擎的友好度让文章被蜘蛛更好的抓取。网站中最好加上书签代码方便蜘蛛爬取时收录归类。链接可以添加在作者的后面。

3、推荐必须写原创文章发表,因为搜索引擎的最终目的就是为了获得优秀的用户体验,展示给用户最有用的信息内容,所以不管什么平台发表文章都是原创的比较给力。文章发表完可以用其他账号给自己的文章适当的评论一下,提高文章的用户体验。

4、最重要的渠道也就算地方性论坛、门户类社区、分类信息网站等平台推广了。尽量多的寻找高权重的论坛注册发帖,论坛设置里的论坛签名可以选择加上URL或锚文本。但是我个人不喜欢加签名是因为签名一但加上以后就不能删除或修改了,一但调整就会影响到你所做关键词的外链收录情况。如果把这个签名链接修改了就会影响到之前所做的关键词外链大幅度减少,对百度来说是很不友好的映像。高权重的论坛可以选择多注册几个账号,如果有IP代理器更好,发帖的时候就可以避开论坛的检测防止发帖过多被删。论坛、社区、分类信息等网站是做外链建设很好的一条途径,基本可以算是新手最开始就要掌握的知识。“都说外链为王、内容为皇”发一篇外链帖子也是需要结合好的标题和内容来实现效果的。如果是发垃圾内容就算百度收录了那对你的网站也只有百害而无一利。其次社会化媒体也是一个很好的推广营销平台,如:人人网、校友网、猫扑、狗扑、开心网等类似的互动性较强的媒介平台。

5、百度旗下的一些产品是最好的推广外链的平台了,因为百度对自身的产品重视程度当然比其他平台都来得高,所以在百度旗下的产品里做外链建所得到的收录权重会比一般的平台做外链得来的权重高。推荐:百度知道、百度百科、百度文库、百度经验、百度贴吧平台。但是百度产品的审核都相当严格,所以要想在上面做外链还是需要一定的研究经验。外链的另外一种形式就是友情链接了,一个好的友情链接可是1:10的比例或更多。友情链接寻找对象一般是找PR越高的越好,但是也需要考虑其网站有没存在什么不良的影响。比如:网站是否被攻击过、被挂黑链、友情链接是否进出完全不协调、快照更新时间是否正常、外链和收录是否都正常、内容更新是否正常。

6、建立一套SEO外链建设策略:寻找一部分高PR的平台资源发外链、原创发帖内容与主题相关性好、锚文字应该选择与内容介绍相关的关键字做链接、锚文字周围适当的布置几个关键字联系紧密、锚文字所链接的页面中导出链接最好不超过50个。

本文来自权威鞋行业电子商务B2B资讯平台-环球鞋网(http://www.shoes.net.cn/)推广部门原创文章,转载请注明出处,谢谢阅读!

08月 28th, 2012 by linbin | 评论关闭

外部优化为“王” 内部优化为“皇”

SEO站内优化思维导图

简单诠释下一个网站的内部优化都需要做哪些方面的工作:

1、站内优化的第一步就是为每个页面选择独立的关键词,在独立关键词的基础上去扩充其他关键词。

2、网站的结构最好是建立成树形结构:树形结构一般说来就是通过一个总的方面然后再延伸出来各个分支,这些分支又有新的分支,最后才到达最终的页面。网站采用树形结构的好处有:URL标准化、结构清晰一目了然、目标关键词布局精准、符合用户体验等等。但并不是只要你的网站采用了树形结构,网站的内部结构就一定非常的好,因为采用树形结构最大的坏处就是如果目录层次太多,会导致蜘蛛抓起的困难导致网站的收录变的很难。所以在布局网站的树形结构时特别要注意层次分明,结构成雨伞状、密度均匀,以及切记出现太深的目录层次。

3、网站的每个网页都应该有一个属于这个页面的独立标题,标题必须避免过多的相似或重复,这样会导致百度蜘蛛在抓取时把相同或相似标题的几个页面判断为同个页面而不去收录,严重的会被直接判断为作弊和垃圾站处理。书写网页标题时可以根据之前为每个页面定位的关键词去结合。

4、网站页面的描述是一个头部代码的必备部分,网页描述是对这个页面整体内容的一个简单概括,百度蜘蛛在爬行网页的时候最先抓的就是关键字、标题和描述,所以这3个是诠释一个网页的重点对象。

5、内部优化还需要考虑到一个关键词密度,一个网页过多的重复出现同一个关键词就会造成关键词密度过高,百度蜘蛛在爬行的时候就会判断为作弊行为从而K站或降权等处罚。如何衡量关键字密度:关键词密度就是同一个关键词出现的频率占这个页面总字数的比例。关键词密度最好保持在3%-8%之间。

6、使用目标关键字做锚文本链接时需要注意的是:不同的关键词建立锚文字链接时可以指向同一个URL,但是同一个关键词建立锚文字链接时别指向不同的URL。因为同一个关键词指向不同的URL时会导致蜘蛛的判断错误,目标不够明确就会很难分辨哪个才是你想要的。

7、使用目标关键词做锚文本链接的时候最好在文章内容中出现,当然需要强调的是所选关键词应该与文章内容相关性程度更高。锚文本链接数需要循序渐进的增加,切勿一开始就在文章中大量做锚文本链接,这样会造成关键词堆砌,百度会判断为作弊行为。

8、网站底部最好寻找一些权重比自己站高的友情链接做交换,只做交换而不是单纯的花钱去买友情链接。做友情链接交换时主要需要检查对方站的质量如何:死链、被K过、友链导出与导入、被攻击过、被挂马等内容是需要检查的。

9、其他的内部优化细节还有:图片的alt标签需要写上一句介绍,这样有易于百度收录这张图片,如果没加alt标签的话百度是收录不了图片的。站点地图是每个网站都必须做的一个导航项,有了站点地图就可以更好的引导百度去收录你网站的一些重点页面,可以避免有些页面被百度蜘蛛忽视了。每个网站都有存在自己的死链,如何处理这些死链呢?首先可以通过站长工具检测出网站存在哪些死链,然后把死链页面加上404返回代码,404返回代码可以有效的与百度进行沟通交流。404代码可以告诉百度此页面已不存在了,这样百度就知道了从而不会对你网站的权重等形成影响。如果有不想让百度蜘蛛爬行的页面可以在代码中加入robots,这样百度就会跳过这个页面继续爬行其他页面。

本文来自权威鞋行业电子商务B2B资讯平台-环球鞋网推广部门原创文章,转载请注明出处,谢谢阅读!

08月 18th, 2012 by linbin | 7 Comments »

浅谈:影响关键词竞价及排名的因素

      关键词一直以来都是各行各业非常关注的一个焦点,关键词排名好坏直接影响一个网站的流量及转化率,所以许多企业愿意花高价去投资百度竞价排名,其实这种做法并不是最理想的,毕竟竞价排名是一个非常烧钱的投资。一但停止做竞价排名也就意味着你的网站排名瞬间丢失,流量也将急速下滑。在此建议大家可以选择找专业的SEO优化团队做下关键字排名,这样的好处是投资少、排名就算到期没续费也可以保证基本排名稳定,而不是陷入无底洞式的竞价投资。

      关键字选择要想为公司带来更多的流量,在做关键词排名时就必须选择对你网站有利关键词,选择关键字时可以查询下这个关键字的热度指数,指数越高代表搜索的人越多,能给网站带来的流量也许就越多,建议可以找一下专业的数据分析师帮忙分析下哪些关键词对公司有用。

      关键词的选择应该先从公司所从事的行业圈定一部分关键字。从行业划分完关键字后就可以研究一下关键词的竞价策略了,根据公司的需要出发圈出对公司最有用的一部分关键字。选出对公司比较有用的关键字后可以继续细分考虑关键词的竞争激烈程度(就是所谓的关键词热度),如果关键词搜索量越大也就是热度越高那竞争也就越大,这样的关键词做竞价排名可带来的流量是相当可观的。在选择关键字的时候也可以考虑在这些竞争激烈热度高的关键词上面做扩展关键字,当然扩展出来的关键字需要注意季节性的问题。关键词也是有季节性的,有些关键字只是在特定的时间段比较多人搜索,一但过时了就是等下次该时间段的来临了。最终便可以找出对你最有利的关键词了。

此文章来自环球鞋网优化团队原创文章。

08月 16th, 2012 by linbin | 1 Comment »

获得高质量外链的方法

很多朋友都犯愁网站的外链,天天手动实在是非常累,而群发容易导致搜索K站降权各种情况,今天为大家分享一下几类快速提高网站的质量外链技巧与实施方法。

第一类:(博客引导)在大型博客站例如新浪、搜狐、腾讯、等建立博客发布一些关于自己网站的软文或文章加入网站的内部链接与主链接,再到推荐的新闻上去发布留言引导蜘蛛可获得质量外链。

第二类:百度、soso、新浪等各种问答类,可采用自问自答方式,大家都知道现在问答采集站非常多,诸多站是做流量站而谋生的,所以利用这个技巧我们在回答的时候留下链接便可,问题采集后自动归入外链.提醒:但是目前百度知道的外链并不好做,可以说是非常的难,但是正是因为难,做出来才是高质量的优质外链。百度留下外链需谨慎否被降权,目前SOSO没出现过。可放心!

 第三类:可利用论坛句号提供的SEO工具批量提交,可在各网站搜索排名、价值搜索等留下痕迹,外链质量不是很高。

 第四类:也是关于采集,10年淘宝客站长统计是40万,部分站长还是采用淘宝产品调用地址增加自己的PID所以这里有漏洞可言,在你开通淘客的店铺上传宝贝加入自己的链接,会被诸多站采集,也不失为一个方法。

第五类:搜索引擎自家产品的外链.例如:百度百科、百度搜藏、百度文库、谷歌书签、gmail等等都可以用来建设外链.因为这些都是搜索引擎自己的产品,重视度相比其他的会更高,如果把这些做好了,可以获得高质量的外链。

08月 14th, 2012 by aぞβσ | 评论关闭

如何做好一个seo,真心、专注、坚持、冷静

SEO前必须掌握真心、专注、坚持、冷静这四项基本要领,这是为什么呢?下面小编aぞβσ就来跟大家分享分享.

一、真心

人脉,在生活中,在网络上都是很重要很珍贵的!对所有你能接触到的人友善真诚的对待,因为他可能会是你的下一个很要好的朋友!如果有人需要你的帮助,那是你的机会,今天你帮助了别人,明天可能就轮到他帮你了,互联网的分享和互助精神我们要始终记住,并去践行!做人,做站在精神上是相通的!

 二、专注

之所以把服务器的稳定性还拿出来当作一个原则说,是因为它直接影响了我们SEO工作的效率。一流的服务器才能做一流的SEO,二流的服务器则是二流的 SEO。如果你的服务器一天好几次因为无法访问而将蜘蛛拒之门外。她又怎么能喜欢你的站呢?这个你明白的,哲哲的博派主机的用户一直在用监控宝来监控博派主机的性能,每15分钟一次http请求,可以很准确的了解到服务器的稳定性。

三、坚持

三天打鱼两天晒网是不可取的,随心所欲难以达到SEO的效果,既然已经制定好了自己的SEO策略,那么按照既定的策略去做SEO工作,每天完成当天的任务,做好当天的事情。要问SEO最重要的是什么,很多人认为是坚持,其实SEO的各个步骤都很重要,错一步全盘输!那为什么大家普篇认同是坚持最重要呢?因为分析,计划很多人能做好,但是”坚持“却不是每个人都能做好的,失败的人倒在了不同的半路上,成功的人到达了同样的终点!

四、冷静

平心静气的做优化推广工作,不要被链接的黑链诱惑,不要被一天增加3000反向链接的免费软件所吸引,不要怕百度的关键字排名时升时降,不要怕百度收录上下波动。不要加倍的去完成每天的工作,尤其对于新站,切不可心急气躁。每天固定的外链数量,循序渐进逐步增加。用两个字概括这个原则就是”淡定“。

08月 14th, 2012 by aぞβσ | 评论关闭

如何进行新站优化

1. 把你想优化的词转换为某一长尾关键词,而这个词最好有一定的热门度(热门度指的在百度指数上能够查的到),如果这个词无法转换,不防暂时放弃,去做你想优化的另外几个词,等权重上去的时候再做也不迟。

2、不要盲目的去优化超级热门的词,因为你比不过排在百度前几页的网站,因为他们都是几年的老站,权重很高,做为一个新站,想在短期内超越那些不容易,即使手里有高权重的网站相互帮助,在短期内也别想做到首页。

  在这里举一个例子:比如有鞋子、运动鞋两个词,因为鞋子属于超级热门的词,显然对一个新站来说短期内做上去不现实,不妨去做“运动鞋”,它则属于一个中等热门的词。当然,如果自己网站是做鞋子相关的,比如:环球鞋网,就可以直接以环球鞋网来做关键词.

所以我们可以对这个词展开进攻至百度首页,到时候词上去了,网站权重慢慢升高了,那么再做鞋子也相对容易多了,甚至到时候你不需要对title、keywords、description做改动,只需要加粗关键词,增加几个外链,鞋子一词就会轻而易举进入百度首页。

3、抱积极的心态去做优化,不要想着去买黑链,不要因为不收录、快照不更新而去烦恼,去怨声载道。遇到这些问题要学会自己分析。

 4、网站首页最后省去javascript、flash等脚本,省去不必要的代码,并不一定非要用div去布局,表格也行,最好简洁你的的代码,利于蜘蛛爬行。坚持每天更新一到两篇原创文章,不会写你可以伪。比如新站只收录一页,对百度来说,那是很正常的,一般新站提交后两天左右就会收录首页,大约半月内就会放出来你的其它页面。

5、去注册一些博客,发一些关于你产品相关的文章,留下你的链接,链接不需要太多,自然为好.

以上就是小编aぞβσ通过自己的学习经验以及网上前辈那学习整理而成.希望给新手带来一些帮助.

08月 14th, 2012 by aぞβσ | 评论关闭

搜索引擎的工作原理

很多人对搜索引擎是如何工作的抱有幻想,今天小编aぞβσ就为大家来说说它到底是怎么工作的.搜索引擎的工作原理其实很简单,首先搜索引擎大致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据分析系统,第三个部分是索引系统,第四个就是查询系统,当然这只是基本的4个部分!

什么是搜索引擎蜘蛛,什么是爬虫程序?

搜索引擎蜘蛛程序,其实就是搜索引擎的一个自动应用程序,它的作用是什么呢?其实很简单,就是在互联网中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库等等,我们可以把搜索引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,然后在把我们网站的内容保存到自己的电脑上!

 

搜索引擎蜘蛛是怎样抓取网页的呢?

发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环

首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中,当然在同时,会提取这个页面所有的链接,然后就是循环。

搜索引擎蜘蛛几乎是24小时不休息的(在此为它感到悲剧,没有假期。哈哈。)那么蜘蛛下载回来的网页怎么办呢?这就需要到了第二个系统,也就是搜索引擎的分析系统。

搜索引擎的蜘蛛抓取网页有规律吗?

这个问题问的好,那么搜索引擎蜘蛛抓取网页到底有规律吗?答案是有!

如果蜘蛛胡乱的去抓取网页,那么就费死劲了,互联网上的网页,每天都增加那么那么那么多,蜘蛛怎么可以抓取的过来呢?所以说,蜘蛛抓取网页也是有规律的!

蜘蛛抓取网页策略1:深度优先

什么是深度优先?简单的说,就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。

我们假如网页A在搜索引擎中的权威度是最高的,假如D网页的权威是最低的,如果说搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变为最高,这就是深度优先!

 

蜘蛛抓取网页策略2:宽度优先

宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。

这其实也就是大家平时所说的扁平化结构,大家或许在某个神秘的角落看到一篇文章,告诫大家,网页的层度不能太多,如果太多会导致收录很难,这就是来对付搜索引擎蜘蛛的宽度优先策略,其实就是这个原因。

蜘蛛抓取网页策略3:权重优先

如果说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的好处,现在搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条连接的权重,如果说这条连接的权重还不错,那么就采用深度优先,如果说这条连接的权重很低,那么就采用宽度优先!

那么搜索引擎蜘蛛怎样知道这条连接的权重呢?

这里有2个因素:1、层次的多与少;2、这个连接的外链多少与质量;

那么如果层级太多的链接是不是就不会被抓取呢?这也不是绝对的,这里边要考虑许多因素,我们在后边的进阶中会降到逻辑策略,到时候我在详细的给大家说!

蜘蛛抓取网页策略4:重访抓取

我想这个比较好理解,就是比如昨天搜索引擎的蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容,那么搜索引擎蜘蛛今天就又来抓取新的内容,这就是重访抓取!重访抓取也分为两个,如下:

1、全部重访

所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次!

2、单个重访

单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面,1个月也不更新一次。

那么搜索引擎蜘蛛第一天来了你是这个样子,第二天,还是这个样子,那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间在来一次,比如隔1个月在来一次,或者等全部重访的时候在更新一次。

以上呢,就是搜索引擎蜘蛛抓取网页的一些策略!那么我们上边说过,在搜索引擎蜘蛛把网页抓取回来,就开始了第二个部分,也就是数据分析的这个部分。

数据分析系统

数据分析系统,是处理搜索引擎蜘蛛抓取回来的网页,那么数据分析这一块又分为了一下几个:

1、网页结构化

简单的说,就是把那些html代码全部删掉,提取出内容。

2、消噪

消噪是什么意思呢?在网页结构化中,已经删掉了html代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删掉没用的内容,比如版权!

3、查重

查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。

4、分词

分词是神马东西呢?就是搜索引擎蜘蛛在进行了前面的步骤,然后提取出正文的内容,然后把我们的内容分成N个词语,然后排列出来,存入索引库!同时也会计算这一个词在这个页面出现了多少次。

5、链接分析

这一个步骤就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导出链接有多少以及内链,然后给这个页面多少的权重等。

数据索引系统

在进行了上边的步骤之后,搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中。那么这个索引库又大致分为以下两个系统:

正排索引系统

什么是正排索引?简单的说,就是搜索引擎把所有URL都加上一个编号,然后这个编号对应的就是这个URL的内容,包括这个URL的外链,关键词密度等等数据。

搜索引擎简单的工作原理概况

搜索引擎蜘蛛发现连接 → 根据蜘蛛的抓取策略抓取网页 → 然后交到分析系统的手中 → 分析网页 → 建立索引库

 

08月 14th, 2012 by aぞβσ | 评论关闭