snownlp icon indicating copy to clipboard operation
snownlp copied to clipboard

中文分词不正确怎么办?

Open segatecm opened this issue 7 years ago • 5 comments

比如这种:

s = SnowNLP(u'腾讯入股万达') s.words ['腾', '讯', '入股', '万达']

腾讯被分开成2个字了

segatecm avatar Jan 30 '18 08:01 segatecm

把“腾讯”加入字典

huangwei2013 avatar Feb 10 '18 06:02 huangwei2013

怎么加入字典呢,没找到接口

Co2Link avatar Apr 24 '18 11:04 Co2Link

怎么加入字典呢,没找到接口

是的,我试着加入 stopwords.txt 这个文件也没用,要研究下。

JiaxiangBU avatar Sep 10 '20 06:09 JiaxiangBU

@JiaxiangBU 你加错地方了

这是很早之前的笔记,不知道当前版本是否有变化:

`

  • 延迟加载 import jieba 不会立即加载词典 有必要时才会加载词典,构造trie 也可手动构造 import jieba jieba.initialize() #手动构造
  • 在0.28之前的版本是不能指定主词典的路径的,有了延迟加载机制后,可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big')``

huangwei2013 avatar Oct 09 '20 01:10 huangwei2013

@JiaxiangBU 你加错地方了

这是很早之前的笔记,不知道当前版本是否有变化:

`

  • 延迟加载 import jieba 不会立即加载词典 有必要时才会加载词典,构造trie 也可手动构造 import jieba jieba.initialize() #手动构造
  • 在0.28之前的版本是不能指定主词典的路径的,有了延迟加载机制后,可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big')``

@huangwei2013 现在好像没用jieba库分词了,现在好像用大佬用其他算法实现的分词模型了

gaosn00 avatar Apr 30 '23 14:04 gaosn00