jieba.NET icon indicating copy to clipboard operation
jieba.NET copied to clipboard

包含空格的自定义词分词时会被分割问题

Open toplevmas opened this issue 8 years ago • 2 comments

如题描述,已经看过测试项目中的代码如下。 什么时候能修复下 :)

            var seg = new JiebaSegmenter();
            seg.AddWord("Steve Jobs");
            seg.AddWord("Mac OS X");
            s = "Steve Jobs重新定义了手机";
            segments = seg.Cut(s);
            Console.WriteLine("Cut: {0}", string.Join("/ ", segments));
            segments = seg.Cut(s, cutAll: true);
            Console.WriteLine("Cut All: {0}", string.Join("/ ", segments));

            s = "我们所熟悉的一个版本是Mac OS X 10.11 EI Capitan,在2015年推出。";

            segments = seg.Cut(s);
            Console.WriteLine("Cut: {0}", string.Join("/ ", segments));
            segments = seg.Cut(s, cutAll: true);
            Console.WriteLine("Cut All: {0}", string.Join("/ ", segments));

Steve Jobs依然会被分开。

toplevmas avatar May 08 '16 14:05 toplevmas

@toplevmas 这个问题在Python版的jieba里也存在,我曾经想修改,没有完成。下面有时间看看。

anderscui avatar May 10 '16 04:05 anderscui

@toplevmas 我想了想,这个问题不是那么简单的。如果我们把“Steve Jobs”作为一个词来看,那么会导致另一个问题,即Steve和Jobs这两个词就分不出来了。在精确模式下这个还可以接受,但在搜索引擎模式会有问题,除非我们把Steve和Jobs也加入词典,但这个不现实。

另一个思路是,先按照现有方式分词,然后尝试进行merge,你觉得怎么样?

anderscui avatar Jun 14 '16 09:06 anderscui