lushizijizoude issues

Results 5 issues of


                                            lushizijizoude

词表问题

我觉得，既然公开了模型的checkpoint，那么也应该公开一下词表吧，不然checkpoint也用不了呀

数据集的处理流程还有模型最后一层的向量怎么获取？

/data/ch/pretraining/ernie_1.0_skep_large_ch/data.gz 这个数据有的处理流程怎么获取？还有想要获得模型最后一层的输出向量，需要调用什么方法？

词向量模型使用的时候是不是需要先分词

w2v_model = Word2Vec("w2v-light-tencent-chinese") compute_emb(w2v_model) 看了下代码，编码的时候会把句子分成一个一个的字符，分别计算字向量得到句子向量，是不是少了分词步骤另外，衡量word2vec模型向量距离的方法是不是用欧式距离更好？

question

找很久也没找到模型和数据，麻烦作者再发一下吧

loss is nan

When training, the loss is nan，can you fix this problem？ Corpus can find in https://drive.google.com/drive/folders/1DuIszwD-2jDZwDuJ6Jjgf5k0a1jiXtcC?usp=sharing