word-discovery icon indicating copy to clipboard operation
word-discovery copied to clipboard

PMI计算的准确性问题

Open ghtwht opened this issue 2 years ago • 0 comments

有个疑问,我们计算4-gram是基于我们已经计算好了2-gram以及3-gram基础之上,也就是说我们的2-gram和3-gram也是经过词频和凝固度的过滤,在过滤之后,2-gram和3-gram的总频数也就不存在约等于总次数的情况了,那么我们计算4-gram的凝固度的时候,以下式子也不成立了。 score = min([total*ngrams[s]/(ngrams[s[:i+1]]*ngrams[s[i+1:]])

ghtwht avatar Oct 21 '22 04:10 ghtwht