jieba.NET issues

我在jieba文档上看到自定义词典的时候：**词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。** 但是我现在只有词语这时候就会导致**WordDictionary在LoadDict的时候进行var tokens = line.Split(' ');的时候出现问题** if (tokens.Length < 2) { Debug.Fail(string.Format("Invalid line: {0}", line)); continue; } **我尝试看了很多版本的jieba他们似乎没有这个问题并且兼容了：词语、词频（可省略）、词性（可省略）**我不太清楚目前是无法做到还是因为写错了

tangjialang

在net core上使用，多个词典加载后累加的问题。

我现在使用环境是net core 3.1,目前使用的方法是，根据不同的需求使用多个词典。不同词典里面的词库数量是不同的，比如我第一次加载LoadUserDict词典（dict_1.txt）使用的词库有100个条目,使用没有问题。在程序的生存周期内，我第二次new JiebaSegmenter，重新加载第二个只有50条目的词库（dict_2.txt），但是此时JiebaSegmenter中的条目会包含有第一次加载的dict_1.txt的所有分词条目。这个问题有没有什么好方法解决？

sappmis

带有表情的字符被分词后，表情的unicode字符对被拆分开了，导致无法完整的统计一个表情，怎么样能让表情不会被拆分开呢？

带有表情的字符被分词后，表情的unicode字符对被拆分开了，导致无法完整的统计一个表情，怎么样能让表情不会被拆分开呢？ ![分词表情](https://github.com/user-attachments/assets/4efa1bfe-5073-4441-818c-74ff1f4468d1)

dianejason

jieba.NET
jieba.NET copied to clipboard

Metadata

System.Text.Json 代替 Newtonsoft.Json

WordDictionary LoadDict Invalid line

在net core上使用，多个词典加载后累加的问题。

带有表情的字符被分词后，表情的unicode字符对被拆分开了，导致无法完整的统计一个表情，怎么样能让表情不会被拆分开呢？

← Metadata

Owner

Metadata

jieba.NET jieba.NET copied to clipboard

Metadata

System.Text.Json 代替 Newtonsoft.Json

WordDictionary LoadDict Invalid line

在net core上使用，多个词典加载后累加的问题。

带有表情的字符被分词后，表情的unicode字符对被拆分开了，导致无法完整的统计一个表情，怎么样能让表情不会被拆分开呢？

← Metadata

Owner

Metadata

jieba.NET
jieba.NET copied to clipboard