hankcs comments

Results 123 comments of


                                            hankcs

Is parseText thread safe?

Yes, it's safe to call `parseText` from multiple threads. As this method doesn't modify any members, but put every temporary result on stack, it's thread safe.

hanlp里面有关于tf-idf的内容吗？我想判断下文章相似性。

统计词频 com.hankcs.demo.DemoOccurrence 老实说tf-idf太低级了，没有做。

建字典树时，当词条数目超过1000000时，总是报错"OutOfMemoryError: GC overhead limit exceeded"

这个结构以utf16为码表，不适合储存大词典。汉字的Unicode区间为0x4E00--0x9FA5，比较分散。你可以尝试用字节做码表。

分词分出了空格

https://github.com/hankcs/HanLP/blob/master/src/test/java/com/hankcs/demo/DemoStopWord.java

1. 分词的定义是将原文拆分为片段，不负责预处理。 1. 分词必须分出空格，否则highlight会错位。这个准则同样适用于其他字符，如制表符、换行符等等。 1. 如果不希望任何片段出现在index中，可以用停用词机制来实现。 1. 20是十六进制的空格，要过滤它，停用词词典里应该敲空格，不应该敲20。 1. 这些符号的词性一般标注为w，可以写代码自己过滤。以后可能会支持配置过滤特定词性，但这个功能太简单，没有多少动力去做。

继续请教

lucene有自己的停用词过滤器，hanlp-solr也有xml配置项，实在不知道怎么配置就去看源码吧。

继续请教

用自定义词典

如何把hanlp 与 solr的DataImportHandler对接?

你好，各司其职，DataImportHandler由solr提供，Processor由tika提供，Analyzer由hanlp（或类似ik等分词器）提供。

如何把hanlp 与 solr的DataImportHandler对接?

http://www.hankcs.com/program/java/placement-and-read-the-properties-file-jspservlet-in-web-application.html https://www.google.com/#newwindow=1&q=tomcat+properties%E6%96%87%E4%BB%B6