Similarity_matching_system
Similarity_matching_system copied to clipboard
如何生成data.pk文件
tfidf_task.ipynb文件中,用到了data.pk文件。注释写到,这个文件是生成的字典。
请问这个TF-IDF字典是如何生成的?
你好,TF-IDF字典是如何生成在这里:tf-idf.ipynb
但tf-idf.ipynb中并没有生成data.pk的代码,这个文件也无法用notepad++打开。
请问data.pk的内容和格式是怎样的?
data.pk 文件是使用cPickle生成的,里面存了一个字典:key 是 分词,value 是对应的tf值,你也可以使用其他方式存储(如json、csv),只要读取的时候能够找到key与对应的value就行。
好的。谢谢!
那么all_dick,idf_dict这两个data.pk文件读取得到的变量,打印出来的模式分别是【分词:序号】,【分词:IDF值】。这样理解对吗
是的