LOTClass
LOTClass copied to clipboard
Tokenizer问题
您好,发现一个小问题: 在WoBertTokenizer中,如果jieba切出来的某个词不在模型的vocab中时,您的处理方式是直接w=list(w)转成字级别。 如像“娱乐圈”这种词,显然不存在于vocab中,如果按您的处理方式,会出现一个问题是导致大量包含“娱乐”这个label name的文档都被干掉了。 不过可以将其切成“娱乐” “圈” 这种形式,也即当切出的该词不在vocab中时,再执行cut_for_search细化切分。