hanlp-lucene-plugin icon indicating copy to clipboard operation
hanlp-lucene-plugin copied to clipboard

HanLP中文分词Lucene插件,支持包括Solr在内的基于Lucene的系统

Results 20 hanlp-lucene-plugin issues
Sort by recently updated
recently updated
newest added

Bumps [junit](https://github.com/junit-team/junit4) from 4.11 to 4.13.1. Release notes Sourced from junit's releases. JUnit 4.13.1 Please refer to the release notes for details. JUnit 4.13 Please refer to the release notes...

dependencies

请给个配置示例好么? 这是我的schema.xml配置: ``` ```

question

根据说明中的配置方式配置了两种自定义词典方式均没有生成*.bin文件 solr版本为7.1 1. 在`schema.xml`文件中配置`customDictionaryPath` ``` ``` core所在目录为`E:\Develop\solr-7.1.0\server\solr\mycore` `schema.xml`在`E:\Develop\solr-7.1.0\server\solr\mycore\conf` 2. 在`hanlp.properties`中配置`CustomDictionaryPath`也没有生效 ``` root=E:/Develop/solr-7.1.0/server/solr-webapp/webapp/WEB-INF/classes/hanlp/ CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; Organization.txt; ``` `hanlp.properties`所在目录为`E:\Develop\solr-7.1.0\server\solr-webapp\webapp\WEB-INF\classes` 这两种配置方式在Organization.txt目录下均没有生成.bin,这样子对吗?

如果是一个字符串,可以提前把 \n去掉,但是在一个文本中,比如text中,那就需要把text全部读出来,去掉\n在进行分词,很消耗内存。在文本中一个词中间换行,应该很常见的。

是否能提供一个类似于stopWordDictionaryPath 的配置,来配置同义词 synonymWordDictionaryPath,这样可以不用 solr 自己的同义词 ``` ```

help wanted

## 注意事项 请确认下列注意事项: * 我已仔细阅读下列文档,都没有找到答案: - [首页文档](https://github.com/hankcs/HanLP) - [wiki](https://github.com/hankcs/HanLP/wiki) - [常见问题](https://github.com/hankcs/HanLP/wiki/FAQ) * 我已经通过[Google](https://www.google.com/#newwindow=1&q=HanLP)和[issue区检索功能](https://github.com/hankcs/HanLP/issues)搜索了我的问题,也没有找到答案。 * 我明白开源社区是出于兴趣爱好聚集起来的自由社区,不承担任何责任或义务。我会礼貌发言,向每一个帮助我的人表示感谢。 * [ x] 我在此括号内输入x打钩,代表上述事项确认完毕。 ## 版本号 当前最新版本号是:1.6.8 我使用的版本是:1.6.8 ## 我的问题 业务中对自定义词典的依赖比较强,比如一些行业的特殊词汇,已经解决了hanlp自定义词典在solr中的使用问题,现在遇到关于自定义词典如何立即生效的问题。问题描述如下: 首先,修改一个自定义词典,比如user_define.txt,这时候user_define.txt的修改时间大于CustomDictionary.txt.bin的修改时间,想把user_define.txt生效,需要以下步骤: 1.删除CustomDictionary.txt.bin,这时solr中缓存的有词典,调用hanlp的分词接口修改的词典文件也不会立即生效,只能手动删除CustomDictionary.txt.bin文件,然后reload core,重新调研hanlp的分词接口。 2.生成CustomDictionary.txt.bin文件的时间比较长(截图中生成一个29M的bin文件需要1分多钟),这样会影响当前core的使用。先缓存启动,当全部词典加载成功后,调用reload方法重新构建词典的方法也考虑过,但是bin的生成时间依然是一个瓶颈。...

help wanted

按照Readme.md配置 但是分词分出了 " " (空格) 也分出了 "的" 还有标点符号 怎么样才能把这些词过滤掉呢?

question

公司用的是 solr 6.6.0 我看到安装这个插件需要修改 `schema.xml`, 但是貌似新版本的schema.xml是动态生成的,而且在mycore里面也找不到这个文件。请问这种情况怎么办? > 修改solr core的配置文件${core}/conf/schema.xml

question