Yanyi Wu

Results 111 comments of Yanyi Wu

stop words does not works in cut api, it only works for (keyword) extract api.

试试用 [email protected] 的话有没有问题?

@bakabird 你的报错信息能也贴一下吗?

英文的建议先特殊处理一下再进行中文分词,否则badcase很多。

你想要的tokenize是具体指什么功能?

因为确实没在 Windows 上面开发过,对于windows 上的编译问题也没办法提供帮忙了。就是希望多翻翻相关issue 尽量找找看有没有对应办法吧。

我能理解你的需求。 不过有一个切词模式(搜索引擎模式:QUERY)和你的需求相近, `nodejieba.cut("南京市长江大桥", "QUERY");` 原理是当词的长度大于一个阈值的时候,会对它进行细的切分。 比如当阈值设置为3(现在本项目的默认阈值是4)的时候, "南京市长江大桥" 会被切分成 `["南京市","长江","长江大桥","大桥"]` 不知道这种分词模式是否符合你的需求。 PS: 之后关于各种切词模式的文档会跟上。

@Honghe 这个小粒度分词功能正在开发中。其实从这个issue被贴上 enhancement 标签的时候就打算加上这个功能了。只是最近工作比较忙还没弄完。

@Honghe 没准备用什么高深的算法,主要先在工程上做一些词长限制。

@hotoo 基本完成这个功能的,我找个时间完善一下然后在README里面写明一下。