jieba.NET icon indicating copy to clipboard operation
jieba.NET copied to clipboard

jieba中文分词的.NET版本(支持.NET Framework与.NET Core)

Results 34 jieba.NET issues
Sort by recently updated
recently updated
newest added

请问支不支持VS2013,NuGet,安装能不能支持,有没有发布版本的DLL?谢谢

你好 我在用Abp 框架开发一个服务,在Domain.Shared这个域里面用到了Jieb.Net,因为`bin/`和`obj/`文件夹都放在gitignore里面了,所以不能用默认的ConfigFileBaseDir配置,请问我该怎么做。

如果我创建一个日文和韩文的字典,是否就可以同时支持这2种语言呢?

![image](https://user-images.githubusercontent.com/23255790/100172527-8522f480-2f03-11eb-83e3-74204d91ba74.png) 必须合并为一个文件么,支持多次调用么

我获取了代码,并新增了一个关键字搜索树,性能大概是您文档描述的5倍,希望能提交代码并为项目做贡献。

public IEnumerable Tokenize(string text, TokenizerMode mode = TokenizerMode.Default, bool hmm = true) { var result = new List(); var start = 0; if (mode == TokenizerMode.Default) { foreach (var w...

![image](https://user-images.githubusercontent.com/29659340/77139337-8cf6e300-6ab0-11ea-9a75-252fdb41b120.png) 不知道能否支持从Uri或者字符串读取数据?UWP中无法使用C:/...这种路径。

目前用单线程, 第一次调用 segmenter.Cut 的时候发现比较慢, 估计是懒初始化. 那么在第一次调用以后, 后面是不是就可以多线程调用了呢? 如果对词库等全局变量仅仅是只读, 那么理论上是可以支持多线程的

var segmenter = new JiebaSegmenter(); segmenter.LoadUserDict(JIEBA_STOCK_DIC_FN); var segments = segmenter.Cut("国办:促进仿制药研发减按15%的税率征收企业所得税 景峰医药封涨停"); 其中 "仿制药" "景峰医药" 我在上面的JIEBA_STOCK_DIC_FN文件中已经定义了,但上面分词 还是把"仿制药"" 分成了 "仿制"和"药" ,把"景峰医药" 分成了"景峰","医药" 两个词, 请问要如何处理? 另外例子中的精确模式和新词识别 看不出有啥区别,是笔误吗?

例如词库里加入了:CAD 然后 CAD2016安装教程 会被分为 CAD/2016/安装/教程 但是 cad2016安装教程 则CAD没有被识别,会被分为 cad2016/安装/教程 这个在搜索分词的时候,一般不会太注意大小写。虽然索引可以忽略大小写,但是用户输入的关键词内容分词的时候就已经出现了偏差,那索引查询的结果就会有很大纰漏了。