THULAC-Java issues

words没有清空，分词结果是重复的

1

1、![image](https://user-images.githubusercontent.com/31679484/71497572-c5ad6480-2893-11ea-8ba7-e4881ca8b4ad.png) 如果读取到空行的话，words.不清空，输出时候会输出重复行 2、配置信息加载建议设计成单例模式，工具调用会重复加载，如果用户字典太大会很慢的。

ZhangWeiHelloWorld

关于分词文本中有空行的问题。

老师好，在使用JAVA版分词时，若文本出现空行，该分词器会自动把下一行内容填充到该行（空行），因此会出现重复词频。第一次使用时不会该情况，改变参数segOnly再次调用则会出现。

Jiaweisun

关于API、demo和文档

各位老师同学幸苦了，开发了这么好的一个中文分词项目。不知道是否可以自定义词典？是否可以自定义词性？该如何操作？如果能有hanlp这样丰富的API和demo就好了，方便大家学习和反馈问题。

dbmove

Fix t2s, since t2s.dat is in little-endian byte order

T2S is not working, because t2s.dat is in little-endian byte order

gembin

您好，CBTaggingDecoder实例化对象多线程调用存在线程安全问题，里面的成员变量不是线程安全的每次调用分词方法存在对成员变量的写操作；反之，如果每次new一个CBTaggingDecoder对象（初始化成员变量等），则模型文件需要重新加载，开销很大能不能优化一下，使得既能够多线程调用，然后不需要重新加载模型文件（至少重用模型数据结构，或者CBTaggingDecoder对象单例化）这里的部分成员变量在调用分词方法有写操作 private int maxLength; private int len; private String sequence; private int[][] allowedLabelLists; private int[][] pocsToTags; private CBNGramFeature nGramFeature; private Dat dat; private CBModel model;...

chenying99

带特殊字符文本分词异常

首先,需要了解一些基本事实: 􀂄 中国的小麦依靠自给。据香港媒体报导,嫩模Jeana(何佩瑜)四处惹是非,结果被其他𡃁模群起围攻,指她整容。 at java.util.Vector.get(Unknown Source) at org.thunlp.thulac.cb.CBTaggingDecoder.segment(CBTaggingDecoder.java:276) 貌似是POCGraph graph对象与句子长度不一致句子中特殊字符占据两个长度，而POCGraph graph对象少了一个长度补充：后面的方法 this.nGramFeature.putValues(sequence, len); 里面用到sequence.charat(i)方法，都会出问题了

chenying99