THUCTC
THUCTC copied to clipboard
An Efficient Chinese Text Classifier
运行demo报错
-------------------------------- Category List: 0 财经 1 教育 2 房产 3 星座 4 科技 5 时尚 6 彩票 7 体育 8 游戏 9 时政 10 股票 11 娱乐 12 社会 13...
您好,我想问一下在官网的测试结果部分微平均只有一个数值(宏平均三个数值都有),具体指的是准确率还是召回率还是F-measure啊,还有就是F-measure评价指标中参数a的取值是多少呢?
我将完整的THUCTC的Demo项目作为moudle引入到自己的工程中,Demo在其自己的moudle中可以正常运行,但我将Demo的代码复制到自己的工程中时,会出现以下错误: ``` Exception in thread "main" java.lang.NoSuchMethodError: org.tartarus.snowball.Among.(Ljava/lang/String;IILjava/lang/String;Lorg/tartarus/snowball/SnowballProgram;)V at org.tartarus.snowball.ext.porterStemmer.(porterStemmer.java:18) at org.thunlp.language.english.EnglishWordSegment.(EnglishWordSegment.java:28) at org.thunlp.language.english.BilingualBigramWordSegment.segment(BilingualBigramWordSegment.java:44) at org.thunlp.text.classifiers.LiblinearTextClassifier.classify(LiblinearTextClassifier.java:541) at org.thunlp.text.classifiers.BasicTextClassifier.classifyText(BasicTextClassifier.java:477) at hit.zhou.Classifacation.runLoadModelAndUse(Classifacation.java:65) at hit.zhou.Classifacation.main(Classifacation.java:13) ``` 我在检索解决方案的时候发现了类似的其他开源项目中的问题:https://github.com/Stratio/cassandra-lucene-index/issues/216#issue-183113466 他的解释是,高低版本的snowball冲突,并完成了修复。 我发现自己的工程中确实引入了高版本的snowball包,但是遗憾的是我并不能将它降低版本。高版本中的Amog类的构造方法发生了改变,造成了这个错误。 我花了几分钟的时间将org.thunlp中的代码改造了一下,实际上做的工作就是更改了一下类的命名。希望能够提醒代码的维护者和仍在使用代码的人。
内存使用太大 model文件没有做压缩,太大 内存使用太大:一下子申请很大内存。 可以考虑对model文件压缩(我对cws_dat压缩后只有18M,原来大约60M),然后边使用边解压。这样不model文件和内存都可以降低很多。