LOTClass icon indicating copy to clipboard operation
LOTClass copied to clipboard

Tokenizer问题

Open Fakekid opened this issue 2 years ago • 0 comments

您好,发现一个小问题: 在WoBertTokenizer中,如果jieba切出来的某个词不在模型的vocab中时,您的处理方式是直接w=list(w)转成字级别。 如像“娱乐圈”这种词,显然不存在于vocab中,如果按您的处理方式,会出现一个问题是导致大量包含“娱乐”这个label name的文档都被干掉了。 不过可以将其切成“娱乐” “圈” 这种形式,也即当切出的该词不在vocab中时,再执行cut_for_search细化切分。

Fakekid avatar May 19 '22 08:05 Fakekid