2006年01月



    摘要:Google刚刚发布了Toolbar 4.0测试版,强烈建议安装使用,因为有很多新的东西。下载, 装后看左面的“用Google Toolbar 订阅”功能。关键字建议(keywords suggestions)功能以前见过,这次集成到Toolbar上了,速度还可以,支持中文:但是会挡住我的中文输入法选词栏。    (全文共2832字)——点击此处阅读全文




    摘要:

上次为了搞好站内搜索引擎,曾在Google、MSN和Yahoo的API中精挑细选。虽然最后选的是Google,但Yahoo的开发者服务给我留下了很深的印象,从Search API 到del.icio.us API,令人眼花缭乱心动不已。特别是Flickr API,恰好满足我需要给“Flyeon美剧真好看”网站添加站内图库的愿望。

我心目中的站内图库是这样的:

  • 可以按照美剧分类
  • 图片存在对方服务器如Flickr的static服务器
  • 可以设置图片meta信息,如图片主人、描述、使用权限等
  • 可以根据关键字搜索图片
  • 最主要的是可以允许任何人向我的Flickr账户上传图片

经过对Flickr API的研究发现,Flickr API可以满足上述所有要求,而且Flickr API的文档是我见过的比较    (全文共989字)——点击此处阅读全文





    摘要:纯开发记录,如希望看到效果演示请直奔最后一段。在基于Google API的站内搜索搞好后,最大的问题是让Google索引flyeon.com下的所有值得搜索的页面,方法是采用Google Sitemap技术通知Google索引。Discuz的帖子都是动态生成的不存在的文件,因此不能用那种基于服务器文件扫描的工具,而是要读数据库生成,需要解决以下几个问题:真正生成xml文件,而不是发送xml header然后动态生成,因为这样会在帖子达到一定数量后拖垮服务器sitemap中的url面向帖子的每一页,即如果一个帖子有N页,除第一页外其他几页也要加到sitemap中可以随时调用这个程序生成最新的sitemapgoogle sitemap最多只能装5000个URL,无法满足需求时需启用s    (全文共3033字)——点击此处阅读全文




    摘要:http://beta.search.msn.com.cn/界面跟英文版一样。只可以搜索网页,没有其他搜索(如图片)。此外还有一个桌面搜索。主搜索框中的高级搜索是一些搜索参数的组合。测试几个搜索:自己的,美剧真好看:http://beta.search.msn.com.cn/results.aspx?q=%E7%BE%8E%E5%89%A7%E7%9C%9F%E5%A5%BD%E7%9C%8B&FORM=QBHP结果中除了我的网站(第一)、我的Blog(第二)、和倒数几个网站比较靠普外,剩余的都是毫不相关的SPAM结果。我认为至少应该是跟美剧有关的网页。    (全文共2107字)——点击此处阅读全文




    摘要: 正版简体中文WinXP SP2    (全文共201字)——点击此处阅读全文



纯开发记录,如希望看到效果演示请直奔最后一段。

《Flyeon - 美剧真好看》网站开工大典胜利闭幕后,今天开始正式开发站内搜索功能。这里说的站内搜索,并不是那种把site:参数加在关键字后,然后前往Google的搜索,而是真真正正的站内搜索引擎,就像Macromedia的那种Powered by Google一样。当然Macromedia用的是Google的商业产品,而适合fan sites自然是Google API

在我收到Google礼物时曾笑称为答谢Google特放弃Yahoo API而是改用Google API做站内搜索,其实我最终是这样选到Google身上的:

  • 我最初试图使用的是海量。海量是中文分词技术的专家,站内搜索的楷模。但当我翻腾海量的网站后发现海量的网站更像个人网站,我在链接的海洋里转来转去,即没有找到适合阅读的技术文档,也没有找到可下载的SDK。唯一靠普的地方在这里(发现竞连到微软网站上了),但这条新闻般的文档不适合linux虚拟主机。

  • 其次自然是百度,号称给Google老板演过讲的百度向来跟着Google走,比如节日Logo,内容广告,所以考虑百度是不是也会有个Baidu API之类的。但不是我的搜索技术太差,就是百度的算法太差,我实在找不到百度开放给开发者的免费接口,小李子,不会是没有吧?

  • 只好又把目光投向“他们三个”。其实我最初选择的不是Yahoo,而是MSN Search,理由很简单,MSN Search支持每天10,000次查询,是Google的10倍。MSN Search的文档在MSDN里摆着,看上去简单清晰,简直就是不二的选择。但即将应用时,发现MSN Search虽然有处理搜索语言的参数,但该参数是个摆设,只能是en-us,并且MSN Search的输入输出都取决于这个参数,换句话说中文在提交给MSN前就变成问号了,既然有这个参数为什么当摆设?既然只有en-us一个值为何不像Yahoo和Google那样采用UTF-8?微软这个微软(想不到更合适的词了)。

  • 退而求其次,Yahoo!的搜索限制比MSN多不少,而且秉承了Yahoo!的一贯作风,写的乱七八糟,复杂咧咧,叽叽歪歪,你直接痛快说次数不就得了?Yahoo! API采用UTF-8编码,不存在语言问题,对于传输的数据使用更简单REST,而不是SOAP。此外Yahoo搜索开放的服务除了Web还有Local等很多很多,切换也很简单。下载了Yahoo! API后发现里面有PHP的例子,真是胜利就在眼前,但打开PHP代码一看,里面用到DOM XML函数库,看php.net上的Requirements,无语,这岂是一般虚拟主机用得了的?只好放弃Yahoo! API。顺便说,Yahoo! API根目录的README文件放错了,以后不要叫雅虎,叫马虎吧。

  • 又剩下Google了。这么多年Google就是这样打败竞争对手的么?Google API有自己的在线文档,朴素的可怜,而且Google只允许每天1000次查询(Google舍得给分给用户2G的硬盘收email,确不肯在查询次数后面加上个零)。有了前面折腾MSN Search的经验,使用同样基于SOAP的Google API很顺利,Google同样有当摆设的语言参数<ie>和<oe>,但跟微软不同的是,Google采用UTF-8,所以语言不成问题。(但在FAQ 26处,Google承认对中日韩等文字处理有些异常,并正在努力解决,不知是不是真的)。

以上就是我选择Google API作为站内搜索的过程,应用起来很简单,因为我的虚拟主机不支持中文UTF-8,所以唯一需要修改的地方就是把要查询的关键字和查询结果都做GB2312和UTF-8间的转换,这个技术问题在上次恶搞那个可怜的MM时已经解决了。

因为网站正在开发中,东西都在硬盘里,无法给出URL查看演示效果,如果想在第一时间看到开发日志中提到的各种技术和应用,可以点击这里注册成美剧论坛的成员,我会在网站上线后发email进行通知。





    摘要:美国佛罗里达垃圾邮件大王James McCalla因发送280,000,000 (280兆) 封垃圾邮件被CIS(爱荷华州一ISP)起诉,历时两年的官司在去年年底终结,垃圾邮件大王被判罚赔款$11,200,000,000 (112亿) 美元,外加三年不许上网。这是法制国家解决问题的办法,但美国的反SPAM法非常不健全,能让SPAMMER钻很多漏洞。以色列人则喜欢依法使用更激进的的方法解决问题。例如定点清除、和平换和平计划等。面对SPAM,一家以色列人开的公司打算这样解决:如果你厌烦SPAM,免费加入他们的组织BlueSecurity,安装他们的开源软件Blue Frog如果你收到SPAM,用该开源软件的功能举报SPAM该公司智能分析SPAM邮件,然后通知发SPAM的网站和该网站的ISP把BlueSecurity成员的地址从SPAM list中删除 - 但多数时候是无效    (全文共1034字)——点击此处阅读全文



属于Personalized Search的一个功能,但并未对所有的Google Account开放,主要作用是去掉不想再看到的网站作为搜索结果,2006年Google算法继续人肉化。

试了一个Remove result的例子(先拿挨千刀的3721开试):

点击Remove result后立刻显示结果(基于Javascript):

图中可见可以当场Undo,点击More Options还有大彩:

即可以选择仅屏蔽对于搜索当前关键字显示这一页面,还是屏蔽搜索所有关键字显示这个页面,还是对于搜索所有关键字屏蔽该网站下的所有页面。Remove后不会再看到这个结果,但在搜索结果页面底部会显示这个:

点击链接后该被删除的结果会用黄色背景重新显示出来,比AdWords还夺目:

可想而知针对某个关键字如果某页面或某网站被自定义为不显示的次数达到一定水平,该网站的域名可以不再续费了。要是现实生活中也有这种选项该有多好,想让什么人消失就消失,什么时候用得上他还可以再把他变出来,可惜在中国这属于超能力范畴,暂时无法普及。

最后奉劝现在已经开始思考如何折腾竞争对手网站的人,Google得到的数据是海量的,省点时间看新闻联播吧。





    摘要:为什么说又呢,因为几天前圣诞的时候已经收到了Google的贺卡:白色的封面,彩色的Google,里面是各种语言的“圣诞快乐”,乍一看还以为Google把那个多语言的“系统不可用,正在维护”的页面打印下来寄给了我。昨天又收到一个神秘小包裹,打开一看又是From your friend at Google,是不是庆祝元旦阿?估计是不同的部门寄出的,Google把不同服务的账户合并到一个Google Account后,礼品源到是没有被合并:)    (全文共952字)——点击此处阅读全文




    摘要:世界上有这样一个国家,这个国家里贼可以公开的偷东西,然后当作自己的家当拿出来买;这个国家的公民偶尔会抱怨自己的同胞制造不出他们想要的东西,但面对便宜的赃物他们更感激这些贼,并永远在有人试图反对这些贼的时候站出来袒护他们。这个国家曾经为世界发明了很多重要的技术,但现在它什么都发明不出来,现在它只能作为失窃者的首选怀疑对象。    (全文共2057字)——点击此处阅读全文




    摘要:从今天开始开始打造 Flyeon - 美剧真好看网站。目前访问www.flyeon.com首页会自动转向论坛,而网站论坛外的部分今天开始建造。因为白天还有其他事情要做,因此创作工作主要放在晚上。基本构思如下:放弃800x600用户,使用固定宽度1024x768800x600用户是所有麻烦的制造者,以前用表格布局时如此,现在改用CSS布局更是如此。根据Google Analytics对本Blog和Flyeon的统计,使用800x600的用户占所有访问者的6% ~ 9%,而他们带来的麻烦却超过了80%。使用XHTML 1.0 Strict,严格遵守WebStandard    (全文共1593字)——点击此处阅读全文