jieba.NET
jieba.NET copied to clipboard
jieba中文分词的.NET版本(支持.NET Framework与.NET Core)
我在jieba文档上看到自定义词典的时候:**词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。** 但是我现在只有词语这时候就会导致**WordDictionary在LoadDict的时候进行var tokens = line.Split(' ');的时候出现问题** if (tokens.Length < 2) { Debug.Fail(string.Format("Invalid line: {0}", line)); continue; } **我尝试看了很多版本的jieba他们似乎没有这个问题并且兼容了:词语、词频(可省略)、词性(可省略)**我不太清楚目前是无法做到还是因为写错了
我现在使用环境是net core 3.1,目前使用的方法是,根据不同的需求使用多个词典。不同词典里面的词库数量是不同的,比如我第一次加载LoadUserDict词典(dict_1.txt)使用的词库有100个条目,使用没有问题。 在程序的生存周期内,我第二次new JiebaSegmenter,重新加载第二个只有50条目的词库(dict_2.txt),但是此时JiebaSegmenter中的条目会包含有第一次加载的dict_1.txt的所有分词条目。 这个问题有没有什么好方法解决?
带有表情的字符被分词后,表情的unicode字符对被拆分开了,导致无法完整的统计一个表情,怎么样能让表情不会被拆分开呢? 