我们介绍过了两种利用Google实现Blog站内搜索的办法,但不管哪一种方法,其实都是利用Google的一个小功能:在进行搜索时,可以指定搜索范围。
因此,为了加强搜索的准确性和精确度,最根本的办法还是让Google更加知道你的网站上都有些什么。
我们知道,Google搜索能够搜索的内容,都是通过爬虫在网上偷窥来的。至于这个爬虫程序去哪里,找什么,Google自然有一套密不可宣的算法,但网上我也看到有些人总结了一些原则性的东西,参测Google的爬虫程序喜欢什么样的网站。
在Google的官方网站上,提供了一个称为设计与内容指南的东西,我把内容列在了下面,从这些原则中,我们似乎可以猜到Google爬虫的饮食习惯。
- 网站应具有清晰的层次结构和文本链接。每个网页应至少可以通过一个静态文本链接打开。
- 为用户提供一个网站地图,列出指向网站重要位置的链接。如果网站地图上的链接超过或大约为 100 个,最好将网站地图拆分为多个网页。
- 网站应信息丰富且具有实用性,网页文字应清晰、准确地表述要传达的内容。
- 要考虑到用户会使用哪些字词来查找您的网页,并设法将这些文字包含在您的网站上。
- 尽量使用文字而不是图像来显示重要的名称、内容或链接。因为 Google 抓取工具无法识别图像中所含的文字。
- 确保 TITLE 和 ALT 标记具有说明性且表达精准无误。
- 检查链接是否错误,并确保 HTML 格式正确。
- 如果采用动态网页(即网址中包含“?”字符),请注意并非每一个搜索引擎 Spider 都能像抓取静态网页一样抓取动态网页。动态网页有助于缩短参数的长度并减少参数数目。
- 将给定网页上的链接限制在合理的数量内(少于 100)。
当然,对于采用Donews Blog服务的我们来说,不用关心那么多,以上是刘老大和Keso们考虑的问题,我们目前能做的,是利用Google SiteMaps服务,告诉Google我们家里都有什么。
简单的说,Google SiteMaps服务是让用户提交一个自己网页目录,把网站内容喂到Google爬虫的嘴里,省得它自己到处乱爬。这个Google SiteMaps服务要仔细说起来,也有点复杂,但好在我们不需要了解技术,因为SiteMaps服务支持提交RSS Feed格式的网站目录结构文档。
大概步骤如下:
1、首先访问https://www.google.com/webmasters/sitemaps,用你的Gmail帐户登陆
2、浏览并同意使用条款后,就来到了Sitemaps的管理界面
3、选择“添加您的首个 Sitemaps 文件”
4、在提交网址页面,输入你的Rss Feed地址,例如我的Rss Feed是http://feeds.feedburner.com/laobaisBlog, 然后选择提交网址按钮。
对于目前我们能够做的,这些就足够了。
按理说,你还应该按照Google的提示,上传一个特别的文件名激活Sitemaps,但我发现,有些时候,即使没有激活,Google仍然会报告已经抓取。(由于技术原因,多数BSP的用户都无法上传文件,因此也就无法激活)
虽然这种办法不能100%改善Google对你的Blog的偏好,甚至抓取数量可能十分有限,但我个人认为,做一下也没有什么坏处。
至于更多的细节,你可以研究一下SiteMaps的帮助、论坛、Blog,不过,这些细节还是交给技术人员们去考虑吧。当然,如果你打算哪一天自己架设BSP服务,倒是应该花时间好好看看。

此主题的相关链接:
《Donews Blog的非官方使用指北》标准操作系列
《Donews Blog的小花招》系列
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=587681