jieba.NET
jieba.NET copied to clipboard
jieba中文分词的.NET版本(支持.NET Framework与.NET Core)
Bumps [Newtonsoft.Json](https://github.com/JamesNK/Newtonsoft.Json) from 12.0.3 to 13.0.1. Release notes Sourced from Newtonsoft.Json's releases. 13.0.1 New feature - Add JsonSelectSettings with configuration for a regex timeout Change - Remove portable assemblies from...
例如输入的关键字是“马克思”,分词的结果是 “马克”、“马克思”,这样是没有问题的,但是高亮之后返回的结果是“马克”“马克思”,大佬,请问这种情况要怎么处理?lucene的版本是:LUCENE_48。

在PosSegmenter的括号里面添加segmenter,这个不看源码应该不知道怎么用吧。。。。 ``` using JiebaNet.Segmenter; using JiebaNet.Segmenter.PosSeg; var segmenter = new JiebaSegmenter(); segmenter.LoadUserDict("userdict.txt"); var posSeg = new PosSegmenter(segmenter); ```
我是在core mvc中集成了jieba.Net, resource文件及其内部文件配置正常,也添加了一个“dict_search.txt”扩展分词, 测试亦可以识别。随后,我使用segmenter.AddWord("***", 0, ""); ,我不知道这个最后执行添加到的位置是哪里,没有在“dict.txt”和“dict_search.txt”中找到对应的添加项,测试分词也无效,所以我不清楚,求解=。=
newtonsoft.json.12.0.3 版本能不能降低成4.几?谢谢
例如:2021-01-01 09:00:00 会被拆分成为 01 00 2021 09 四个数值,并且其中的两个01 两个00 最终的权重值还会比较高。 建议以上日期成为一个独立完整的日期描述词,以上案例拆分出的4个数值无法体现出具体意义。 感谢您的贡献~
自定义字典问题
 此方法中并未找到 LoadedPath.Add方法添加传入的userDictFile
JiebaSegmenter.Tokenize方法能不能增加词性返回,否则需要多次分析,效率不佳。
今天4:50某某某领了一只记号笔 其中4:50为什么不能识别成时间???下面是分词和标记 今天/t 4/x :/x 50/m 某某某/r 领/v 了/ul 一只/m 记号笔/n