2005年11月14日

最小精力付出原理: 人们将尽可能的减少平均工作率。
具体到自然语言理解的领域中有了Zipf 法则:
在一个语料库中,将所有的词语按照词频逆序排序,即词频大的排位在先。设一个词的词频为f,  其在语料库中的位置为r, 则有近似公式
   f  *  r  = k        (k 为某常数)
 此公式即Zipf 公式
这个公式能够大致反映人类语言的统计特征, 但是在细节上尤其是对低频词的概括上比较不准确。所以Mandelbrot公式提出了更加细微的概括
 log f = log P  – B *  log( r +  p  )           (此处 P, B, p都是参数 )
可以针对特定的语料库设计 参数, 当B=1, p =0 是 Mandelbrot公式简化为Zipf 公式