vacant2011

Results 2 issues of vacant2011

up主的博客中提到,可以用n为某个值的ngram总频数来计算total > 事实上,根据(对于某个固定的n)ngram的计算方式: [text[i:i + n] for i in range(len(text) - n + 1)] ,就知道每种ngram的总数约等于字数是显然成立的。 而源码中,是对所有ngram的频数的总和来计算total的,是否与博客中的算法不一致,导致pmi计算不正确? `for s, n in Progress(ngrams(), 100000, desc=u'loading ngrams'):` ` if n >= self.min_count:` `...

想参考学习下,多谢大佬!