Andy Sun
Andy Sun
@yangboz , 必须调用jieba.set_dictionary明确指出词典的路径,否则会在默认位置寻找dict.txt。但是被py2exe打包之后就找不到了。
@yangboz , 昨晚很有意思,大牛们在上面讲,咱俩在调程序。
@xmkane , 现在结巴分词并不能很好地处理一些歧义case,解决办法暂时只有加词典条目。 自定义词典如何添加可以参考wiki,另外git repository中的最新版本也支持调用add_word加词条 https://github.com/fxsjy/jieba/issues/122 。 另外,你举的【张绍刚发道歉信网友不认可】这个例子可以用jieba分词子模块posseg来试一试,它的新词识别能力比较强,但是速度要慢一些。 张绍刚/nr 发/v 道歉信/vn 网友/n 不/d 认可/v http://jiebademo.ap01.aws.af.cm/ (选择“显示词性”)
@jiffies , poseg和jieba.cut使用的模型不一样,所以分词的效果有差别。
helloworld test
helloworld test
Thanks, done.
@zhangzhenhu , 可以试一试,发个PR吧 :-)
@isafe , 目前还不支持。有开源分词组件支持正则词典的?
也做了,因为ScanOnce也会调用Get一次。 https://github.com/baidu/ins/blob/master/sdk/ins_sdk.cc#L351