ltp 强烈建议增加用户自定义词典自定义词性功能。

当我使用用户自定义词典时，由于自定义词汇不再分词，其词性由LTP判定会产生大量错误。例如机械领域表达零件名称的词汇：支撑组件、清洁组件、辅助传动组件。这些词汇如果由LTP自动确定词性会根它的某一部分被识别为动词、形容词等。这些我应该定义成专有名词，可能是因为LTP没有将用户词典的词性理解正确，导致后续的语义依存、语义角色标准均存在问题。图中所有的机械零件名称应被定义为专有名词，可被识别成了其他词性。但如果可以自定义他们的词性是不是就可以解决这个问题。

因此，希望作者可以开放此部分功能。

Apr 06 '21 06:04 yindisun

附议,一些专有名词会被生硬地断开

Apr 16 '21 06:04 boss-create

附议,一些专有名词会被生硬地断开

他最新的代码对专有名词可以添加词典保证不会被断开，不过，词性会分辨错误，这个可以理解毕竟是专有名词。但是自定义词典不能修正词性这个就很鸡肋。

Apr 16 '21 07:04 yindisun

附议,一些专有名词会被生硬地断开

他最新的代码对专有名词可以添加词典保证不会被断开，不过，词性会分辨错误，这个可以理解毕竟是专有名词。但是自定义词典不能修正词性这个就很鸡肋。

附议，建议增加可自定义修改词性功能

May 01 '21 07:05 amjiuzi

确实，希望能够支持一下

Aug 30 '21 02:08 GreenHatHG

@AlongWY 自定义词性有支持计划了么，能增加不少灵活性呢

Oct 13 '21 07:10 AnddyWang

复议

Oct 15 '21 10:10 YifengLuo

复议

Oct 22 '21 05:10 java66liu

我们会尽快增加该特性

Aug 19 '22 04:08 AlongWY

23年了，这个提上日程了吗？

Mar 01 '23 07:03 haichao-zhao

真的很需要这个功能，pyltp有引入外部词典，但是pyltp会有内存泄漏，批量操作会把内存跑爆，希望ltp可以加上这个功能

Mar 13 '23 07:03 xiaoBaiJLong

真的很需要这个功能，pyltp有引入外部词典，但是pyltp会有内存泄漏，批量操作会把内存跑爆，希望ltp可以加上这个功能

试了一下用jieba引入外部词典分词后再调用 ltp.seg([seg_list], is_preseged=True)，但是返回的 hidden 会有问题，经常会报 RuntimeError: The expanded size of the tensor (60) must match the existing size (64) at non-singleton dimension 1. Target sizes: [1, 60, 60]. Tensor sizes: [1, 64, 1] ，这样的异常

Mar 13 '23 08:03 xiaoBaiJLong

在我后期的研究中，我使用具有词性代表性的词对原始语句中可能会误判词性的词进行替换解决了这个问题，相关文献。但，我做的是专利文本，专利文本具有一定撰写规则，代替换的词汇可以通过专利文本撰写规则获得。 @xiaoBaiJLong @haichao-zhao @AnddyWang @GreenHatHG @amjiuzi @boss-create

Mar 13 '23 08:03 yindisun

ltp ltp copied to clipboard

强烈建议增加用户自定义词典自定义词性功能。

ltp
ltp copied to clipboard