我给自己出了一个问题:
Google都拿走了哪些数据, 是不是我网站的全部?
下面是我对这个问题的看法(借用了Rico和Wohere的网站)
首先,写一个小程序用来拿Google, Baidu的数据, 因为每个站点被收录的内容都不是小数字, 手工做可能就要死人了.
主界面, 把全部的搜索结果整理出来, 可以过滤URL
k555.cn这个域名在Google和Baidu的收录情况(Google 215, Baidu 612), 所以从搜索引擎来讲, Baidu收录更多
发现k555.cn在Baidu的收录中有263 (43%) 的记录的标题是"打印文章", 但Google中只有一条, 是不是Google以为这些都是类似的了呢? 其实不应该算类似的. 再者, 这样的标题也不利用户的搜索, 可以说浪费了在搜索引擎上的们置了.
另一个有趣些的数据(下面两图):
K555.cn/Soft 的数据在Baidu 14(2%) Google 140 (65%)
K555.cn/Article的数据在Baidu 564(92%) Google 16 (7%)
Baidu更在乎Article这个路径的页面, 但Google反尔是更重视Soft下面的数据, 可见Google与Baidu的拿数据的原则是大相径庭, 甚至几乎成了互补, 我想Rico应该可以找到些办法来跟据它们的胃口来Feed它们吧
搜索引擎对于动态页面不会用主动的方法去爬, 所以对于这两种页面的信息发布页应该就是这个问题产生的跟源了吧.
(同上)
同rico一样, Baidu的数据要比Google的多得多(760条是在Baidu上能拿到的最大数字, 如果想要更多就需要细化关键字了, Google也同样不会超过1000)
关于zhihere.com的List.asp页面, Baidu应该是尽力了, 但Google仍然是报着类似页面的原则
Baidu的数据量虽大, 但不一定代表全, 比如有关收藏的页面
还是简单的总结一下吧
1.Google对比Baidu, Google似乎有着强大的智能, 数据全而且对类似页面进行过滤, 去掉大部分重复的, 而Baidu却象是仍然在靠体力工作, 数量大但却不一定全, 从技术上来看, Baidu想真的学到Google的本领还是要时间的.
2.页面标题还是要注意的一个大问题, k555.cn中的"打印页面"是不是可以在前面加上文章的标题? zhihere的标题有很多是"知合网-XXXX", 是不是可以改为"XXXX-知合网", 因为知合网对于关键字来讲不是重要的, 很少会有人直接搜"知合网"查找你, 如果能把现在的标题内容放在"知合网"的前面, 应该能把这些页面对于相应的关键字的级别多少有些好处吧? 因为关键字的顺序也是很重要的
3.其实许多时候, 除了学那些在网上贴得到处都是的那些文章外, 我们也需要去想一下是不是存在其他的途径来帮助我们解决问题.
4.这里只是我抛砖引玉的一个简单想法和实践, 如果能集更多的人智慧, 我想这个学习小组应该真的是前途远大咧.
Update
大家要求要下载,本来这个东东已经坏了,今天改了一下,大家点击下载试试吧!
本篇文章使用aigaogao Blog软件发布, “我的Blog要备份”
google是智能分析的。会根据相关度等一系列因素来处理抓取的频率,范围,页面数等。相似原则应该也是有的,比如说printable版本和普通的版本,本质上数据是一样的(搜索引擎抓取之后,过滤掉页面的框架代码,剩下的主要内容就应该是同样的),所以google会省略。
这种种做法,有2个目的:
1 减少用户付出的流量费用。
2 减轻自己服务器的负荷,可以在单位时间内,用最少的硬件资源索引最多的页面数。
如果你继续研究,还会发现索引的频率也有很大的不同,google是变化的,是会判断你的更新频率来抓去,而不是不停地抓你全站,而百度就傻乎乎的抓抓抓。这些基本是根据pagerank来的。为什么说pagerank是google的专利,就是因为google依据这个东西创造了数学模型,应用于google的主要架构中。所以google很优秀。我的虚拟主机,百度每月都抓走我1G左右的流量,nnd,我一共只有200多个页面而已。google只抓走了几十M。我宝贵的流量都这么浪费了,写了个robot.txt,可是人家百度不管这套,就抓你。服务器不是我的,要不然我把所有百度机器人都过滤掉,nnd。好多人说被百度封掉,我都求着他封我了,怎么就不封呢?
百度,号称自己专心处理中文,事实上,他目前这种硬干的方法无法处理更大的数据量,如果让他处理英文的页面,恐怕他就处理不了了。
另,google的论文都有开放,所有基础理论都开放,感兴趣哪部分,可以去相关论文找来读读,没必要猜。
据我的几个分析,百度其实还不如一搜呢。
virushuo —— 2005年11月30日 @9:53 pm
TO:virushuo
我本来是想用来查我关心的网站的某一个关键字下的排名用的,刚好发现两边的数据有很大差别。我对搜索的技术不是很了解,看来有时间还是要去读一读。
Tiger —— 2005年12月01日 @9:40 am
“虎”兄真是用功啊!
aCPU —— 2005年12月06日 @10:45 am
现在雅虎要进军中文搜索市场了。在搜索领域,雅虎的技术也是超过百度的。
喜飞丁 —— 2005年12月13日 @8:57 pm
To: aCPU
我是很用功啊,不过总是在偏离主要方向的方面
Tiger —— 2005年12月13日 @11:27 pm
雅虎我很少用啊, 看来以后也要试试, 多一个地方搜也好
Tiger —— 2005年12月13日 @11:30 pm
能不能共享一下您写得的那个分析小软件呢?
但百度在发现新出线的中文网站时,速度要比其他的搜索引擎快许多……
imjimjimi —— 2005年12月14日 @12:18 am
To: imjimjimi
好的, 我会传上aigaogao.net
Tiger —— 2005年12月14日 @1:12 am
tiger真乃用心人,发现了baidu和google索引文件的不同,也谢谢你的提示。aigaogao.net快完工了吧,好了以后下载一个你的做那个小软件,自己琢磨琢磨一下。
wohere —— 2005年12月15日 @1:09 am
yahoo好像后台很硬阿,很多很敏感的关键字,百度自觉过滤,google被封,yahoo居然可以随便查,还提供原原本本的网页快照。
不过一般的搜索结果是比不上前面两位的。
语焉 —— 2005年12月16日 @2:51 pm
研究一下Google和Baidu是怎么样研究我们的
小虎 —— 2005年12月18日 @12:50 pm
To:语焉
真是让我不好意思了,我对搜索的确是不了解,上次virushuo说让我去看Google的论文我也给放在脑后了
Yahoo的搜索我还没有用过:( , 我只知道搜索就用Google, 中文的会Google Baidu
Tiger —— 2005年12月18日 @6:50 pm
To:wohere
我发你email好了, 给我个地址, blogtiger!gmail.com
Tiger —— 2005年12月22日 @11:22 pm
不好意思,还让你还挂记着….
我的邮箱:imjimjimi@gmail.com
imjimjimi —— 2005年12月23日 @9:16 pm
To:imjimjimi
已经发了
Tiger —— 2005年12月24日 @2:22 am
显示初始化错误,0xc0000135
imjimjimi —— 2005年12月24日 @10:07 pm
Tiger,今天在KESO那看到你的BLOG,对你的Search Analyzer很感兴趣,不知道能否发一份给我,麻烦一下,谢谢
wp5279@gmail.com
cacao —— 2006年01月10日 @2:25 pm
分析的的不错。Search Analyzer我也有兴趣。发我一份吧
ganninghb@163.com
甘宁 —— 2006年01月10日 @9:52 pm
分析的的不错。Search Analyzer我也有兴趣。发我一份吧
jbsboy@gmail.com
jbsvictor —— 2006年01月10日 @10:26 pm
我比较喜欢 您的这个工具
那样我也可以分析
也许对大家是有用处的
如果方便的话
是否可以发我一份
十分感谢
lake_sec@yeah.net
Lake —— 2006年01月10日 @11:44 pm
我也挺喜欢这个工具的,能否发一份给我,dengxu0009@yahoo.com.cn
Internazional —— 2006年01月11日 @9:38 am
零度高烧.闪 —— 2006年01月11日 @11:29 am
老大的工具不错,看的偶挺眼红的:),能否给份,谢谢。baikequanshu@gmail.com
ggid —— 2006年01月11日 @11:47 am
发给我吧,看来这个需求量很大啊
xujie8410@gmail.com
徐杰 —— 2006年01月11日 @11:54 am
工具很不错啊,能否发一份呢!
cdrw12@163.com
好软件 —— 2006年01月11日 @2:49 pm
发过给imjimjimi ,不过好象他说有问题,因为这个东东是写这篇东西以前很久做的了,如果大家要可能我要改改,不然不能用是没有用的啊, 到时我会发email给大家
Tiger —— 2006年01月11日 @3:24 pm
老大,Search Analyzer 看起来真不错,给我一个好吗?
zzh0907@163.com 谢谢!
Good Soft —— 2006年01月12日 @12:30 am
耐心的等
Lake —— 2006年01月15日 @5:38 pm
老纪 —— 2006年01月21日 @10:16 pm
searchengineanalyzer下载了!但是不能用呀!显示初始化错误,0xc0000135
jbsvictor —— 2006年01月27日 @7:23 pm
关于不能运行的问题:
原因是电脑没有装微软的.net framework。可以到这里下载安装。http://www.microsoft.com/downloads/details.aspx?displaylang=zh-cn&FamilyID=262D25E3-F589-4842-8157-034D1E7CF3A3
小陆 —— 2006年02月24日 @8:07 pm
关于不能运行的问题:
原因是电脑没有装微软的.net framework。可以到这里下载安装。http://www.microsoft.com/downloads/details.aspx?displaylang=zh-cn&FamilyID=262D25E3-F589-4842-8157-034D1E7CF3A3
小陆 —— 2006年02月24日 @8:08 pm
To:小陆
你没有安装.net的运行环境吗?aigaogao是在.net的环境下安装的,你要先下载一个.net framework, 不过错误信息里面的路径是错的,这个是正确的路径http://download.microsoft.com/download/7/b/9/7b90644d-1af0-42b9-b76d-a2770319a568/dotnetfx.exe 你可以先下载安装.net framework然后再安装aigaogao.
Tiger —— 2006年03月02日 @9:06 am
To:jbsvictor
你有没有安装.net framework?
Tiger —— 2006年03月02日 @9:06 am
虎虎,这个工具是挺有效率的,但搜索的数量为什么和直接输入site:url差得很多呢?
小弟的MSN:cl2410@163.com
闲庭信步-博客 —— 2006年03月14日 @7:31 pm
To:闲庭信步-博客
在搜索页面显示的数量是Google或Baidu的针对当前结果的总数,但并不是都能够查看到的。
比如搜"Tiger", 会有太多的结果,但搜索引警能提供给用户查看的只有不到一千条。
如果想查一千条以后的,就只能通过关键字细化,比如搜"Tiger Blog",又会得到几百条,但这次就会有刚刚只搜"Tiger"时看不到的记录了。
或都换个说法,Google如果结果是每页10条的话,你是看不到100页以后的数据的。
不知道你问的是不是这个问题。
Tiger —— 2006年03月14日 @11:24 pm
谢谢虎虎!就是这个问题,
闲庭信步-博客 —— 2006年03月15日 @4:56 pm
To:闲庭信步-博客
Tiger —— 2006年03月16日 @1:26 pm
"Google如果结果是每页10条的话,你是看不到100页以后的数据的。"
为什么?
sleepy01 —— 2006年03月16日 @9:04 pm
To:sleepy01
当你搜索的时候,Google或Baidu会显示在他们的数据库中共有多少条符合,但并不是都给我们查的,你拭拭就知道了,1000条以后的数据都是不给看的了,即使显示有几十万条。
Tiger —— 2006年03月17日 @10:38 am
呵呵,研究一下,
狼Blog —— 2006年03月21日 @4:00 pm
To:狼Blog
Tiger —— 2006年03月22日 @11:54 am
老兄,我的网站的核心部分以前在/km下,后来搬到了/下,百度和google的页面都是老不更新,怎么办啊?其实只要把http://www.xuxinyu.cn/km/**.html换成http://www.xuxinyu.cn/**.html就可以了,我怎么告诉他们啊?
柳临风 —— 2006年05月05日 @11:46 am
To:柳临风
我对搜索引擎并不了解,问我是找错人了,:(
按我理解你至少要保留以前的路径可用,不然GOOGLE会认为你的网站不做了。所以对于这种重整网站结构的情况我会使用URL Rewrite, 把旧的路径映射到新的路径。
逐渐过渡而不是一刀切段。
Tiger —— 2006年05月15日 @10:48 am
To:柳临风
如果支持htaccess就很方便,在km目录下放个文件,写上2句话.没调试过,大概就是这样的.
RewriteEngine on
RewriteRule ^([.]+)\.html$ ../$1.html [L]
allen —— 2006年08月14日 @9:59 am
不能用了,Tiger有时间更新一下吧
闲庭信步 —— 2006年11月27日 @4:39 pm
工具很不错啊,能否发一份呢!
人生过客 —— 2006年12月05日 @8:16 pm
To:allen
Tiger —— 2006年12月13日 @11:47 pm
To:闲庭信步
刚刚更新了
Tiger —— 2006年12月13日 @11:47 pm
To:人生过客
上面有下载的链接呀,
http://www.aigaogao.com/download/searchengineanalyzer.rar
Tiger —— 2006年12月13日 @11:47 pm
好
窃听器 —— 2007年01月07日 @2:01 pm
很多人评论啊
网站优化 —— 2007年01月12日 @4:49 pm
下载了一下结果运行不了,奇怪了!初始化失败!
什么是SEO —— 2007年04月16日 @10:09 pm
搞定,原来没有装.net!
什么是基金 —— 2007年04月16日 @10:27 pm
很不错的工具,可惜不能下载了,能不能发给我一份.
zfy_2000@163.com
so6109 —— 2007年06月01日 @11:56 am
学知识啊~ 后面快成邮箱帖了…嘿嘿~
蒙大拿的小偷 —— 2007年06月26日 @9:59 am
也想要一个,谢谢
zq1902713@hotmail.com
zq19027 —— 2007年07月02日 @11:24 am
公司注册http://www.bjcy315.com公司注册
注册公司http://www.baic315.com注册公司
公司注册http://www.zqzhuce.com公司注册
公司注册http://www.registe.cn北京公司注册
公司注册http://www.bjhd315.com工商注册
典当行http://www.hpawn.com安徽典当行
[url=http://www.bjcy315.com]公司注册[/URL]
[url=http://www.baic315.com]注册公司[/URL]
[url=http://www.zqzhuce.com]公司注册[/URL]
[url=http://www.registe.cn]北京公司注册[/URL]
[url=http://www.bjhd315.com]工商注册[/URL]
[url=http://www.hpawn.com]典当行[/URL]
公司注册 —— 2007年09月17日 @11:13 am
唉,我为这个在google和百度排前技术已经弄得头都涨了,谁指点我一下?
咯哩咯哩 —— 2008年06月03日 @12:00 pm