赵刚解析搜索引擎的排序并提供检索服务

Posted 09月 4th, 2010 by 刚 赵
Categories: SEO基础

赵刚在前边两片文章中分别介绍了搜索引擎的原理:
第一篇:搜索引擎是如何抓取网页的
第二篇:搜索引擎索引并处理网页的原理
想了解的朋友们可以参考以上的链接。今天赵刚就自己的认知来给朋友们介绍搜索引擎的最后一步,也是最关键的一步:搜索引擎的排序以及是如何提供检索服务的!想了解更多SEO基础的知识请访问赵刚的推广博客www.cnzg5.com.cn

下边就回归正题,首先你的了解用户的搜索习惯,即用户一般情况下是如何在互联网上查找自己所需要的问题的。

首先用户会输入关键词在搜索引擎搜索,这时候相应的动作就交由搜索系统程序来处理了。本片文章有赵刚整理并发布在赵刚的推广博客上。首先,搜索程序系统程序会从网页索引数据库中找到符合该关键词的所有相关网页。

这些所有相关网页针对该关键词的相关度早已算好,所以搜索引擎只需按照现成的相关度数值排序,相关度越高,排名越靠前。这就是搜索引擎的排序及检索服务的大概过程了!

同时,为了用户便于判断,搜索引擎会提供除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息等。这样用户会根据title,网页的摘要一级其他信息来确认这些内容有没有适合自己所需要的!

到 这里基本上搜索引擎程序所提供的检索服务就彻底完成了。到这里也就是搜索引擎的三大步骤就介绍完毕了!即:抓取、处理、提供检索服务。其中相关的排序等相 关动作融入在处理阶段,也就是说根据赵刚的经验,这三大过程是搜索引擎的立足和发展之根本;赵刚提醒大家在做相关网站的SEO优化的时候,主要针对这三个过程中的细节来做就是了,只有这样才能做到以不变应万变!

好了,今天就先写到这里吧。本片文章始发赵刚的网站推广博客,网址:http://www.cnzg5.com.cn。

赵刚:搜索引擎索引并处理网页的原理

Posted 08月 18th, 2010 by 刚 赵
Categories: SEO基础

赵刚在上一篇文章中给大家简单阐述了搜索引擎抓取网页的基本原理。紧接着搜索引擎就开始对已经抓取到的网页进行处理,为下一步的排序做准备了!

一般搜索引擎会由专门的分析索引系统程序对收集回来的网页进行分析,然后并提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),在搜索引擎提取到网页的基本信息之后,根据一定的相关度算法进行大量复杂计算,针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。本文由赵刚首发网站推广的博客,如果转载请保留版权!

赵刚觉得其中,最重要的就是提取关键词,建立索引文件。其他的操作还包括去除重复网页、分析超链接、计算网页的重要度等等。

类似与上边的这一系列的进程,我们做网站推广网站优化的是看不到的,但是却可以明显的感觉的到。这也就是我们做网站优化的切入点。毕竟赵刚觉得这些最基本的东西也是搜索引擎最核心最经典的,他们是不会有大的改变的,即便是有也是一些算法的改进和完善。

只有当你了解了搜索引擎的这些基本原理之后,你所做的优化工作就会轻松很多,更不会迷茫!由于时间关系,赵刚就先简单介绍到这,下一篇文章会给大家分享搜索引擎的排序并提供检索服务的功能

本文由赵刚首发赵刚的网站推广博客,如果转载请保留此版权!更多关于网站优化推广请访问:www.cnzg5.com.cn

赵刚:搜索引擎是如何抓取网页的?

Posted 08月 15th, 2010 by 刚 赵
Categories: SEO基础

现在网上关于搜索引擎优化的文章很多,从侧面说明了进入网站优化的个人也越来越多,在很多论坛,最热闹的就是新手问答区,最热门的也是很基础的优化知识。由此,赵刚觉得很有必要让大家了解到搜索引擎到底是怎么来抓取网页的,这个是搜索引擎生存的根本,也是发展的基础。做网站优化网站推广的时候只有抓住了最核心的也是最本质的东西了,我们才能以不变应万变!

其实搜索引擎先要抓取到互联网上的网页,然后索引并处理,最后将排序后的结果提供给用户,这就是搜索引擎的抓取原理。今天赵刚就先给大家阐述一下搜索引擎是如何来抓取网页的!

搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。

网页搜集的过程中要保证每个网页不要被重复的抓取,由于一篇网页可能被多个网页链接,搜索引擎蜘蛛爬取过程中就有可能多次得到该网页的url, 所有解决这个问题的有效方法是使用两个数据表 分别为unvisited_table和visited_table。前者包含尚未访问的url,后者记录已访问的url。本文首发赵刚的网站推广博客,如需转载请保留相关版权!

系统首先将要搜集的种子url放入unvisited_table,然后spider从其中获取要搜集网页的url,搜集过的网页url放入 visited_table中,新解析出的并且不在visited_table中的url加入unvisited_table。

搜索引擎的自动信息搜集功能分两种:
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定期向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

以上就是赵刚对搜索引擎抓取网页的基本认识,下一篇文章赵刚将为大家分析搜索引擎是如何索引并处理网页的

本文首发地址赵刚的网站推广博客:http://www.cnzg5.com.cn/post/17.html

Hello world!

Posted 07月 23rd, 2010 by 刚 赵
Categories: Uncategorized

Welcome to DoNews Blog. This is your first post. Edit or delete it, then start blogging!