snownlp 中文分词不正确怎么办？

中文分词不正确怎么办？

Open segatecm opened this issue 7 years ago • 5 comments

比如这种：

s = SnowNLP(u'腾讯入股万达') s.words ['腾', '讯', '入股', '万达']

腾讯被分开成2个字了

Jan 30 '18 08:01 segatecm

把“腾讯”加入字典

Feb 10 '18 06:02 huangwei2013

怎么加入字典呢，没找到接口

Apr 24 '18 11:04 Co2Link

怎么加入字典呢，没找到接口

是的，我试着加入 stopwords.txt 这个文件也没用，要研究下。

Sep 10 '20 06:09 JiaxiangBU

@JiaxiangBU 你加错地方了

这是很早之前的笔记，不知道当前版本是否有变化：

延迟加载 import jieba 不会立即加载词典有必要时才会加载词典，构造trie 也可手动构造 import jieba jieba.initialize() #手动构造
在0.28之前的版本是不能指定主词典的路径的，有了延迟加载机制后，可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big')``

Oct 09 '20 01:10 huangwei2013

@JiaxiangBU 你加错地方了

这是很早之前的笔记，不知道当前版本是否有变化：

`

延迟加载 import jieba 不会立即加载词典有必要时才会加载词典，构造trie 也可手动构造 import jieba jieba.initialize() #手动构造

在0.28之前的版本是不能指定主词典的路径的，有了延迟加载机制后，可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big')``

@huangwei2013 现在好像没用jieba库分词了，现在好像用大佬用其他算法实现的分词模型了

Apr 30 '23 14:04 gaosn00

snownlp snownlp copied to clipboard

中文分词不正确怎么办？

snownlp
snownlp copied to clipboard