jieba-php icon indicating copy to clipboard operation
jieba-php copied to clipboard

如何根据自定义词典,从文本中提取词典中的关键词?

Open sj8354661 opened this issue 6 years ago • 2 comments

需求: 如何根据自定义词典,从文本中提取词典中的关键词。

设想三种方案: 1、输入文本,获取结巴分词结果,编写一套代码根据分词结果对比自定义词典,输出同时包含在文本中和词典中的词。 2、输入文本,编写一套代码,逐个查询词典中的词是否在文本中出现,输出同时包含在文本中和词典中的词。 3、利用结巴词性标注的功能,在自定义词典中,将自定义词全部标注为某一特殊词性,利用结巴根据词性提取关键词功能,输入文本,提取指定词性的关键词。 4、利用结巴自定义词典功能,分词完全根据指定的自定义词典进行分词,输入文本,调用指定词典,输出分词结果。 5、利用结巴权重功能,输出分词结果中将指定自定义词典中的词的权重调大,其他词权重调低,输出分词结果后,截取权重靠前的几个词。

问题: 哪种方案可以实现需求? 结巴有没有直接根据算定义词典提取关键词的功能?

因为没有看到可以直接实现类似这样需求的资料,所以在此提问,请不吝赐教!

如果您了解这方面技术,请提供一下思路,如果能提供一下教程学习地址,或者写点参考代码就更好了。谢谢,不胜感激!

sj8354661 avatar Aug 22 '19 05:08 sj8354661

请问你是否应用于某个垂直领域?还是仅用于学习实验?

fapi-china avatar Oct 14 '19 07:10 fapi-china

@sj8354661 可以參考 https://speakerdeck.com/fukuball/head-first-chinese-text-segmentation,50 幾頁附近有自定義辭典使用思路,其實就是提高自己想要的權重去做到

fukuball avatar Oct 14 '19 08:10 fukuball