2006年01月22日

作者:caiyeahku        转载请挂上我的烂名和地址^_^

中文字符集编码列表[GBK.UTF-8.unicode对应表]查询出的编码。

UTF-8 %E7%BE%8E
GBK %C3%C0
Unicode %u7F8E

字为例进行测试。

各大搜索引擎的接口

http://www.google.com/search?hl=zh-CN&q=
http://www.yahoo.com.cn/search?ei=UTF-8&p=
http://www.baidu.com/s?wd=
http://www.iask.com/s?k=

将上面关键字的各自编码放置各大搜索引擎进行测试。

显示结果

UTF-8 GBK Unicode
google %u7F8E
yahoo À %u7F8E
sina %u7F8E
baidu 鏔8E

Google对国际化的支持度最高!不愧为搜索引擎的老大^_^.不过它对Unicode还是不行。

Yahoo居然不能支持GBK?!实际跟它的参数ei=UTF-8有关,如果改为ei=gb2312,则显示正常。即使在www.yahoo.com搜索,也存在这个问题。在这点他比不上Google的自动检测技术了。很明显,雅虎中国继承了杨致远的技术,却还未消化掉,本土化还不行。

对于UTF-8的支持,本土的搜索引擎新浪和百度都不行,也许跟他们只是面向中国用户有关,但出现在百度身上就不应该了。百度已经在美国上市了,至少得面向美国的股东,人家使用UTF-8编码的中文搜索,却出现乱七八糟的东西,多尴尬啊,哈哈哈哈,想到这点我就忍不住笑了^_^。还号称全球最大中文搜索引擎呢,真够讽刺。至于Unicode就更不用说了,新浪还好过它。

         美                缇
UTF-8   %E7%BE%8E      %E7%BC%87
GBK     %C3%C0         %E7%BE
Unicode %u7F8E         %u7F07

如果使用[美]的UTF-8的编码%E7%BE%8E 到 百度进行搜索,试一下,你会发现百度搜索出[缇],而非[美],从上面的编码表比较可以看出,百度将UTF-8的编码%E7%BE%8E 的%8E 截掉了,实际是%E7%BE,而%E7%BE正是[缇]的GBK编码!