LOTClass icon indicating copy to clipboard operation
LOTClass copied to clipboard

LOTClass 的中文实验、学习、应用。提供中文新闻多分类案例和数据

Results 2 LOTClass issues
Sort by recently updated
recently updated
newest added

您好,发现一个小问题: 在WoBertTokenizer中,如果jieba切出来的某个词不在模型的vocab中时,您的处理方式是直接w=list(w)转成字级别。 如像“娱乐圈”这种词,显然不存在于vocab中,如果按您的处理方式,会出现一个问题是导致大量包含“娱乐”这个label name的文档都被干掉了。 不过可以将其切成“娱乐” “圈” 这种形式,也即当切出的该词不在vocab中时,再执行cut_for_search细化切分。

我在THUCNews上跑了你的代码,效果不太好。对比了中英文构建的词表,中文的类别词表用MLM的方式构建,精准度不是很高,而且词的匹配程度挺低的相比英文。不知道博主那边是不是也有这个情况。