Results 123 comments of hankcs

Yes, it's safe to call `parseText` from multiple threads. As this method doesn't modify any members, but put every temporary result on stack, it's thread safe.

统计词频 com.hankcs.demo.DemoOccurrence 老实说tf-idf太低级了,没有做。

这个结构以utf16为码表,不适合储存大词典。汉字的Unicode区间为0x4E00--0x9FA5,比较分散。你可以尝试用字节做码表。

https://github.com/hankcs/HanLP/blob/master/src/test/java/com/hankcs/demo/DemoStopWord.java

1. 分词的定义是将原文拆分为片段,不负责预处理。 1. 分词必须分出空格,否则highlight会错位。这个准则同样适用于其他字符,如制表符、换行符等等。 1. 如果不希望任何片段出现在index中,可以用停用词机制来实现。 1. 20是十六进制的空格,要过滤它,停用词词典里应该敲空格,不应该敲20。 1. 这些符号的词性一般标注为w,可以写代码自己过滤。以后可能会支持配置过滤特定词性,但这个功能太简单,没有多少动力去做。

lucene有自己的停用词过滤器,hanlp-solr也有xml配置项,实在不知道怎么配置就去看源码吧。

用自定义词典

你好, 各司其职,DataImportHandler由solr提供,Processor由tika提供,Analyzer由hanlp(或类似ik等分词器)提供。

http://www.hankcs.com/program/java/placement-and-read-the-properties-file-jspservlet-in-web-application.html https://www.google.com/#newwindow=1&q=tomcat+properties%E6%96%87%E4%BB%B6