ltp icon indicating copy to clipboard operation
ltp copied to clipboard

分词不准

Open pqj325 opened this issue 3 years ago • 5 comments

您好,对这个句子进行分词时,结果并不理想:这是一种简答而有效的方法。 将“一种”,分成了“一”、“种”。 即便换成base模型,还是这个分词结果。请问怎么办

pqj325 avatar Sep 16 '21 12:09 pqj325

这应该是分词标准的问题?可以试试 Universal Dependencies 训练的模型?

AlongWY avatar Sep 23 '21 01:09 AlongWY

请问能不能支持类似jieba那样的添加自定义词典的方式来改善分词结果呢?

Gavingx avatar Apr 13 '22 03:04 Gavingx

可以在模型输出的结果里修改bmes结果来影响分词结果。 比如分词不准,模型输出BEBE,添加自定义词词不准,修改为SBME

不过引入自定义词典来改善分词结果,我感觉这个可能有点不太可靠~

geasyheart avatar Apr 13 '22 03:04 geasyheart

可以在模型输出的结果里修改bmes结果来影响分词结果。 比如分词不准,模型输出BEBE,添加自定义词词不准,修改为SBME

不过引入自定义词典来改善分词结果,我感觉这个可能有点不太可靠~

seg, hidden = ltp.seg(["分词不准"]), 请问在哪里修改,修改过后hidden还是一样吗? 这样在进行后续依存分析或者pos的时候结果会有问题吧?

Gavingx avatar Apr 13 '22 05:04 Gavingx

emmm,那还是别进行修改了。另外修改后未必会是期待中的结果。 如果是自定义词典,可以找个不可能被分开的相似词进行替代,然后再进行分词。

如果dep和pos都是你基于上述分词进行标注的数据,那就没有大问题。

geasyheart avatar Apr 13 '22 09:04 geasyheart