ltp
ltp copied to clipboard
分词不准
您好,对这个句子进行分词时,结果并不理想:这是一种简答而有效的方法。 将“一种”,分成了“一”、“种”。 即便换成base模型,还是这个分词结果。请问怎么办
这应该是分词标准的问题?可以试试 Universal Dependencies 训练的模型?
请问能不能支持类似jieba那样的添加自定义词典的方式来改善分词结果呢?
可以在模型输出的结果里修改bmes结果来影响分词结果。
比如分词不准
,模型输出BEBE
,添加自定义词词不准
,修改为SBME
。
不过引入自定义词典来改善分词结果,我感觉这个可能有点不太可靠~
可以在模型输出的结果里修改bmes结果来影响分词结果。 比如
分词不准
,模型输出BEBE
,添加自定义词词不准
,修改为SBME
。不过引入自定义词典来改善分词结果,我感觉这个可能有点不太可靠~
seg, hidden = ltp.seg(["分词不准"]), 请问在哪里修改,修改过后hidden还是一样吗? 这样在进行后续依存分析或者pos的时候结果会有问题吧?
emmm,那还是别进行修改了。另外修改后未必会是期待中的结果。 如果是自定义词典,可以找个不可能被分开的相似词进行替代,然后再进行分词。
如果dep和pos都是你基于上述分词进行标注的数据,那就没有大问题。