ck

Results 8 comments of ck

看着改源码吧,提交合并再发布还真不知道到哪年 ![image](https://user-images.githubusercontent.com/21599896/158732819-f5f3bd00-483d-4fc8-9393-36aefc6fc629.png)

。。。。为啥要改分切符号。。。不可以反向切割吗?从右边切割两刀这不就避开了word里的空格了吗?如下: ``` word, _, tag = line.rsplit(' ', 2) ```

> > 。。。。为啥要改分切符号。。。不可以反向切割吗?从右边切割两刀这不就避开了word里的空格了吗?如下: > > ``` > > word, _, tag = line.rsplit(' ', 2) > > ``` > > 不能反向切割,反向切割的前提条件是字典里每一条都遵循标准格式“词 词频 词性”,假设我自定义的词典里只有词,没有词性和词频,然后我的词还带有空格,反向切割会把我的词直接切开。 ...统一预处理词条的缺省词性和缺省频率不就行了?而且jieba本身貌似不支持你说的只有词条的情况,自定义字典最后处理都是会加上词性和频率的。这点你得去确认了。

> 。。。。为啥要改分切符号。。。不可以反向切割吗?从右边切割两刀这不就避开了word里的空格了吗?如下: > > ``` > word, _, tag = line.rsplit(' ', 2) > ``` 我测试了一下反向切割的做法,可以实现任意字符串作为独立的自定义词,包括连续空格、标点等情况。但性能确实有所下降,通过缓存可以减轻这问题,但还是治标不本。大概看了一下还是得从算法和代码优化上入手,考虑用python3的新特性去优化迭代的地方。这里祖传代码实在是太多年代感了...

解决方案。修改getUpdateMasterDocBulk : ``` return new Promise(function (resolve, reject) { var bulk = []; var item = {}; item.doc = opDoc; bulk.push({ index: { _index: watcher.Content.elasticsearch.e_index, _type: watcher.Content.elasticsearch.e_type, _id: id }...