THULAC-Java
THULAC-Java copied to clipboard
An Efficient Lexical Analyzer for Chinese
1、 如果 读取到空行的话,words.不清空,输出时候会输出重复行 2、配置信息加载 建议设计成单例模式,工具调用会重复加载,如果用户字典太大会很慢的。
老师好,在使用JAVA版分词时,若文本出现空行,该分词器会自动把下一行内容填充到该行(空行),因此会出现重复词频。第一次使用时不会该情况,改变参数segOnly再次调用则会出现。
各位老师同学幸苦了,开发了这么好的一个中文分词项目。 不知道是否可以自定义词典?是否可以自定义词性?该如何操作? 如果能有hanlp这样丰富的API和demo就好了,方便大家学习和反馈问题。
能否改成maven项目,优化下接口,并发布到仓库中?
T2S is not working, because t2s.dat is in little-endian byte order
您好,CBTaggingDecoder实例化对象多线程调用存在线程安全问题,里面的成员变量不是线程安全的 每次调用分词方法存在对成员变量的写操作; 反之,如果每次new一个CBTaggingDecoder对象(初始化成员变量等),则模型文件需要重新加载,开销很大 能不能优化一下,使得既能够多线程调用,然后不需要重新加载模型文件(至少重用模型数据结构,或者CBTaggingDecoder对象单例化) 这里的部分成员变量在调用分词方法 有写操作 private int maxLength; private int len; private String sequence; private int[][] allowedLabelLists; private int[][] pocsToTags; private CBNGramFeature nGramFeature; private Dat dat; private CBModel model;...
首先,需要了解一些基本事实: 中国的小麦依靠自给。 据香港媒体报导,嫩模Jeana(何佩瑜)四处惹是非,结果被其他𡃁模群起围攻,指她整容。 at java.util.Vector.get(Unknown Source) at org.thunlp.thulac.cb.CBTaggingDecoder.segment(CBTaggingDecoder.java:276) 貌似是POCGraph graph对象与句子长度不一致 句子中特殊字符占据两个长度,而POCGraph graph对象少了一个长度 补充: 后面的方法 this.nGramFeature.putValues(sequence, len); 里面用到sequence.charat(i)方法,都会出问题了
java环境,编译源码时报错,五个空指针= = 我把编译报错的log放到百度云了,这是链接: https://pan.baidu.com/s/1chDQUE 麻烦看一下,谢谢
目前SegItem没有offset属性,这个属性对于分词来说也是很关键的,期待增加