lushizijizoude
lushizijizoude
词表问题
我觉得,既然公开了模型的checkpoint,那么也应该公开一下词表吧,不然checkpoint也用不了呀
/data/ch/pretraining/ernie_1.0_skep_large_ch/data.gz 这个数据有的处理流程怎么获取? 还有想要获得模型最后一层的输出向量,需要调用什么方法?
w2v_model = Word2Vec("w2v-light-tencent-chinese") compute_emb(w2v_model) 看了下代码,编码的时候会把句子分成一个一个的字符,分别计算字向量得到句子向量,是不是少了分词步骤 另外,衡量word2vec模型向量距离的方法是不是用欧式距离更好?
找很久也没找到模型和数据,麻烦作者再发一下吧
When training, the loss is nan,can you fix this problem? Corpus can find in https://drive.google.com/drive/folders/1DuIszwD-2jDZwDuJ6Jjgf5k0a1jiXtcC?usp=sharing