tf-idf-keyword icon indicating copy to clipboard operation
tf-idf-keyword copied to clipboard

請教idf的部分是如何產生的

Open babyandy0111 opened this issue 6 years ago • 3 comments

Hello, 接觸這部分沒有很深, 請問idf的檔案是如何產生的呢?

babyandy0111 avatar Jun 11 '18 14:06 babyandy0111

IDF档案的生成来自于 gen_idf.py 脚本。

具体的算法请参考 tf-idf, Wikipedia

gaussic avatar Jun 12 '18 00:06 gaussic

Hi @gaussic 我用了gen_idf.py 腳本產生idf, 但檔案出現的格式和原本提供的idf不太一樣 他出現了類似以下的編碼 0120 312e 300a 0020 312e 300a 0320 312e 300a 0220 312e 300a 0420 312e 300a 0820

我在segment.py 添加了 jieba.set_dictionary('./data/dict.txt.big') #jieba下載的 jieba.load_userdict('./data/keyword.txt') #隨意整理 jieba.analyse.set_stop_words('./data/stop_words.txt') #jieba下載的

這是正常的嗎?

babyandy0111 avatar Jun 12 '18 10:06 babyandy0111

妳好,關於妳的問題,還請給出妳的運行環境。

  • 操作系統
  • Python 版本
  • 檔案編碼格式
  • 其他描述性信息

gaussic avatar Jun 13 '18 05:06 gaussic