SIFRank_zh icon indicating copy to clipboard operation
SIFRank_zh copied to clipboard

提取的关键词倾向于带英文字母

Open hummingg opened this issue 2 years ago • 4 comments

大佬好! 我用这份代码提取《大话数据结构》全书,发现得到的关键词大多都含字母,且不大像一个词,如下图。 请问,我该怎么改进呢?

SIFRank关键词

hummingg avatar Oct 14 '21 08:10 hummingg

这里修改正则表达式 @hummingg

sunyilgdx avatar Oct 15 '21 07:10 sunyilgdx

似乎问题是THULAC分词错误导致的,碰上英文就歇菜。清华的分词模型对自定义用户词典的支持好像不太好。 准备把THULAC换成jieba试试,可行吗? 无向图有向图

hummingg avatar Oct 17 '21 06:10 hummingg

跟分词系统和正则匹配规则相关度很大

sunyilgdx avatar Oct 17 '21 11:10 sunyilgdx

大佬你好,怎么才能提取全书呢

1sebsgithub1 avatar Nov 14 '22 02:11 1sebsgithub1