lian xiaolei
Results
2
issues of
lian xiaolei
加载albert-base模型时报以下错误: Shape of variable bert/embeddings/word_embeddings:0 ((21128, 768)) doesn't match with shape of tensor bert/embeddings/word_embeddings ([21128, 128]) from checkpoint reader.
您好,发现一个小问题: 在WoBertTokenizer中,如果jieba切出来的某个词不在模型的vocab中时,您的处理方式是直接w=list(w)转成字级别。 如像“娱乐圈”这种词,显然不存在于vocab中,如果按您的处理方式,会出现一个问题是导致大量包含“娱乐”这个label name的文档都被干掉了。 不过可以将其切成“娱乐” “圈” 这种形式,也即当切出的该词不在vocab中时,再执行cut_for_search细化切分。