SIFRank_zh 提取的关键词倾向于带英文字母

提取的关键词倾向于带英文字母

Open hummingg opened this issue 4 years ago • 4 comments

大佬好！我用这份代码提取《大话数据结构》全书，发现得到的关键词大多都含字母，且不大像一个词，如下图。请问，我该怎么改进呢？

SIFRank关键词

Oct 14 '21 08:10 hummingg

这里修改正则表达式 @hummingg

Oct 15 '21 07:10 sunyilgdx

似乎问题是THULAC分词错误导致的，碰上英文就歇菜。清华的分词模型对自定义用户词典的支持好像不太好。准备把THULAC换成jieba试试，可行吗？无向图有向图

Oct 17 '21 06:10 hummingg

跟分词系统和正则匹配规则相关度很大

Oct 17 '21 11:10 sunyilgdx

大佬你好，怎么才能提取全书呢

Nov 14 '22 02:11 1sebsgithub1