2009年11月24日

摘自’旁观者-郑钧‘ http://zhengyun-ustc.blog.sohu.com/


语义技术将像ajax一样成为开发者必备技能。
但能把ajax玩得像gmail那么转而且早的,一定不多。
玩个自动提取标签啦之类的都是小case。
将来一般网站都应该掌握的。

语义技术,无非分词、词性标注、分类。如果有几个开源的东西一拼接就行了。
如果等你打算做到百度新闻的领域,就会意识到算法是核心竞争力。

比如这次改版后的百度新闻,那就必须揉合多种算法,而且必须从本质做大的提升。姑且不说强度很高的文本相似性算法,就说分类,必须提升现在常见的分类算法。因为它分类分得非常细。
这时候,必须自己研发。
单纯就百度新闻的互联网频道,就好几个子类。十几个大频道,每个都有各种各样很细小的分类,语言
特征很模糊。
我问过他们,这都是机器自动的,几乎接近于传统媒体网站一大堆编辑的水平了,语义能到这种可商用
的强度就难了。

算法不是一朝一夕能偷师的。
所以,技术门槛还是比较高的。

随着语义技术普及,那么势必有一些应用要求接近于人工智能,此时算法很重要。
所以,要把底子打好,以备来日激战。
当然,有的时候,统计+规则+简单语法分析能解决不少问题,比如说中国雅虎的人际关系计算,不需要
太强力的算法,却又能得到良好的效果。