doc2vec
doc2vec copied to clipboard
每个doc的向量如何获取?
您好,有几个疑问: 我make完之后,执行了train这个工程,然后程序就执行结束了,之后就没有任何的回馈信息了——就是每个doc的向量存储在哪儿的?如果我要计算与"苹果"这个词最近相似度的词的话,如果写测试代码?在train.cpp里面自己加进去?这样确实有点。。。
如何处理中文文档的?我显示出来是乱码的。
Doc2Vec这个类里有获得特定词的TOPK个相似词的方法: bool word_knn_words(const char * search, knn_item_t * knns, int k); 如果要得到特定文档的向量,可以调用Doc2Vec的这个方法: void infer_doc(TaggedDocument * doc, real * vector, int skip = -1);