jieba.NET
jieba.NET copied to clipboard
包含空格的自定义词分词时会被分割问题
如题描述,已经看过测试项目中的代码如下。 什么时候能修复下 :)
var seg = new JiebaSegmenter();
seg.AddWord("Steve Jobs");
seg.AddWord("Mac OS X");
s = "Steve Jobs重新定义了手机";
segments = seg.Cut(s);
Console.WriteLine("Cut: {0}", string.Join("/ ", segments));
segments = seg.Cut(s, cutAll: true);
Console.WriteLine("Cut All: {0}", string.Join("/ ", segments));
s = "我们所熟悉的一个版本是Mac OS X 10.11 EI Capitan,在2015年推出。";
segments = seg.Cut(s);
Console.WriteLine("Cut: {0}", string.Join("/ ", segments));
segments = seg.Cut(s, cutAll: true);
Console.WriteLine("Cut All: {0}", string.Join("/ ", segments));
Steve Jobs依然会被分开。
@toplevmas 这个问题在Python版的jieba里也存在,我曾经想修改,没有完成。下面有时间看看。
@toplevmas 我想了想,这个问题不是那么简单的。如果我们把“Steve Jobs”作为一个词来看,那么会导致另一个问题,即Steve和Jobs这两个词就分不出来了。在精确模式下这个还可以接受,但在搜索引擎模式会有问题,除非我们把Steve和Jobs也加入词典,但这个不现实。
另一个思路是,先按照现有方式分词,然后尝试进行merge,你觉得怎么样?