snownlp
snownlp copied to clipboard
中文分词不正确怎么办?
比如这种:
s = SnowNLP(u'腾讯入股万达') s.words ['腾', '讯', '入股', '万达']
腾讯被分开成2个字了
把“腾讯”加入字典
怎么加入字典呢,没找到接口
怎么加入字典呢,没找到接口
是的,我试着加入 stopwords.txt 这个文件也没用,要研究下。
@JiaxiangBU 你加错地方了
这是很早之前的笔记,不知道当前版本是否有变化:
`
- 延迟加载 import jieba 不会立即加载词典 有必要时才会加载词典,构造trie 也可手动构造 import jieba jieba.initialize() #手动构造
- 在0.28之前的版本是不能指定主词典的路径的,有了延迟加载机制后,可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big')``
@JiaxiangBU 你加错地方了
这是很早之前的笔记,不知道当前版本是否有变化:
`
- 延迟加载 import jieba 不会立即加载词典 有必要时才会加载词典,构造trie 也可手动构造 import jieba jieba.initialize() #手动构造
- 在0.28之前的版本是不能指定主词典的路径的,有了延迟加载机制后,可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big')``
@huangwei2013 现在好像没用jieba库分词了,现在好像用大佬用其他算法实现的分词模型了