Similarity_matching_system icon indicating copy to clipboard operation
Similarity_matching_system copied to clipboard

如何生成data.pk文件

Open xiaoshuwen1995 opened this issue 4 years ago • 5 comments

tfidf_task.ipynb文件中,用到了data.pk文件。注释写到,这个文件是生成的字典。

请问这个TF-IDF字典是如何生成的?

xiaoshuwen1995 avatar May 12 '20 07:05 xiaoshuwen1995

你好,TF-IDF字典是如何生成在这里:tf-idf.ipynb

JackKuo666 avatar May 12 '20 07:05 JackKuo666

但tf-idf.ipynb中并没有生成data.pk的代码,这个文件也无法用notepad++打开。

请问data.pk的内容和格式是怎样的?

xiaoshuwen1995 avatar May 12 '20 09:05 xiaoshuwen1995

data.pk 文件是使用cPickle生成的,里面存了一个字典:key 是 分词,value 是对应的tf值,你也可以使用其他方式存储(如json、csv),只要读取的时候能够找到key与对应的value就行。

JackKuo666 avatar May 12 '20 09:05 JackKuo666

好的。谢谢!

那么all_dick,idf_dict这两个data.pk文件读取得到的变量,打印出来的模式分别是【分词:序号】,【分词:IDF值】。这样理解对吗

xiaoshuwen1995 avatar May 12 '20 09:05 xiaoshuwen1995

是的

JackKuo666 avatar May 12 '20 11:05 JackKuo666