cnhzzx
cnhzzx
@qinwf 我在关键词提取的时候把topn设置成1000,但是提取的关键词数量会少于分词的数量,这是什么原原因?是不是因为有些分出来的词并不在idf语料库中?
@qinwf >keyworker = worker("keywords",user = "user_dict.txt", stop_word = "stop_words.txt",idf = "idf.txt",topn = 1000) >wk = worker(user = "user_dict.txt", stop_word = "stop_words.txt") > wk["今天股票跌很厉害"] [1] "股票" "跌" "厉害" >vector_keywords(wk["今天股票跌很厉害"],keyworker) 6.92433 4.76323...
@qinwf 谢谢!现在已经可以用了 但就是我在系统自带的idf词库中没有找到”跌"这个词,不知道“跌”这个词对应的idf值11.7392是怎么计算得到的? (别的词比如“厉害”,我直接在系统的idf词库中可以找到其对应的idf值就是6.92433)