jieba
jieba copied to clipboard
词性标注的分词和Tokenize分词不一致?
import jieba.posseg as pseg words = pseg.cut(text)
result = jieba.tokenize(text) 发现对text的分词有些不同,比如“抄的”在前面就是一个词,第二种就是2个词.请问哪里出了问题?
我也发现这个问题了,没人回复啊
@jiffies , poseg和jieba.cut使用的模型不一样,所以分词的效果有差别。
哪个好呢?
如过我想词性标注的同时还标记出他在文中的位置,该怎么办呢