摘要:
有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他 们有过任何联系。其实这正是Web Robot的功劳。Web Robot其实是一些程序,它可以 穿越大量Internet网址的超文本结构,递归地检索网络站点所有的内容。这些程序有时被叫 “蜘蛛(Spider)” , “网上流浪汉(Web Wanderer)”,”网络蠕虫(web worms)”或Web crawler。常见的搜索引擎有google,yahoo,msn,百度,soso,sogou等等。
现在所有网站都考虑seo,所谓seo就是优化网站对这些搜索引擎的友好度,让自己的网站更容易通过搜索引擎被访问到。然而,Robot程序抓你的网站页面时,有时会因为频率太高而影响你的服务器,所以,合理的设置robots.txt(注意,是robots)很重要。
若要控制爬网你的网站的时间和方式,请在网站 (全文共2359字)——点击此处阅读全文