hanlp-lucene-plugin
hanlp-lucene-plugin copied to clipboard
HanLP中文分词Lucene插件,支持包括Solr在内的基于Lucene的系统
Bumps [junit](https://github.com/junit-team/junit4) from 4.11 to 4.13.1. Release notes Sourced from junit's releases. JUnit 4.13.1 Please refer to the release notes for details. JUnit 4.13 Please refer to the release notes...
根据说明中的配置方式配置了两种自定义词典方式均没有生成*.bin文件 solr版本为7.1 1. 在`schema.xml`文件中配置`customDictionaryPath` ``` ``` core所在目录为`E:\Develop\solr-7.1.0\server\solr\mycore` `schema.xml`在`E:\Develop\solr-7.1.0\server\solr\mycore\conf` 2. 在`hanlp.properties`中配置`CustomDictionaryPath`也没有生效 ``` root=E:/Develop/solr-7.1.0/server/solr-webapp/webapp/WEB-INF/classes/hanlp/ CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; Organization.txt; ``` `hanlp.properties`所在目录为`E:\Develop\solr-7.1.0\server\solr-webapp\webapp\WEB-INF\classes` 这两种配置方式在Organization.txt目录下均没有生成.bin,这样子对吗?
如果是一个字符串,可以提前把 \n去掉,但是在一个文本中,比如text中,那就需要把text全部读出来,去掉\n在进行分词,很消耗内存。在文本中一个词中间换行,应该很常见的。
是否能提供一个类似于stopWordDictionaryPath 的配置,来配置同义词 synonymWordDictionaryPath,这样可以不用 solr 自己的同义词 ``` ```
## 注意事项 请确认下列注意事项: * 我已仔细阅读下列文档,都没有找到答案: - [首页文档](https://github.com/hankcs/HanLP) - [wiki](https://github.com/hankcs/HanLP/wiki) - [常见问题](https://github.com/hankcs/HanLP/wiki/FAQ) * 我已经通过[Google](https://www.google.com/#newwindow=1&q=HanLP)和[issue区检索功能](https://github.com/hankcs/HanLP/issues)搜索了我的问题,也没有找到答案。 * 我明白开源社区是出于兴趣爱好聚集起来的自由社区,不承担任何责任或义务。我会礼貌发言,向每一个帮助我的人表示感谢。 * [ x] 我在此括号内输入x打钩,代表上述事项确认完毕。 ## 版本号 当前最新版本号是:1.6.8 我使用的版本是:1.6.8 ## 我的问题 业务中对自定义词典的依赖比较强,比如一些行业的特殊词汇,已经解决了hanlp自定义词典在solr中的使用问题,现在遇到关于自定义词典如何立即生效的问题。问题描述如下: 首先,修改一个自定义词典,比如user_define.txt,这时候user_define.txt的修改时间大于CustomDictionary.txt.bin的修改时间,想把user_define.txt生效,需要以下步骤: 1.删除CustomDictionary.txt.bin,这时solr中缓存的有词典,调用hanlp的分词接口修改的词典文件也不会立即生效,只能手动删除CustomDictionary.txt.bin文件,然后reload core,重新调研hanlp的分词接口。 2.生成CustomDictionary.txt.bin文件的时间比较长(截图中生成一个29M的bin文件需要1分多钟),这样会影响当前core的使用。先缓存启动,当全部词典加载成功后,调用reload方法重新构建词典的方法也考虑过,但是bin的生成时间依然是一个瓶颈。...
公司用的是 solr 6.6.0 我看到安装这个插件需要修改 `schema.xml`, 但是貌似新版本的schema.xml是动态生成的,而且在mycore里面也找不到这个文件。请问这种情况怎么办? > 修改solr core的配置文件${core}/conf/schema.xml