Results 123 comments of hankcs

有意思。CAMR语料库可能还是太formal了。

感谢反馈,的确存在中文数字解析的问题。微软的东西试过了,也没法处理一些混合小数与单位的情况,还是得靠自己改了改。请应用补丁: ``` pip3 install perin_parser -U ```

至于部分数值缺失,则是由于模型没有预测出来,而不是预测出来转换错误导致的。暂时没有太好的办法,可能需要跟NER做联合学习。

感谢反馈,我理解大家需要各种功能的心情。但个人精力有限,无法在周边业务逻辑上分配那么多精力,这点还需要社区的帮助。

如你所说,IndexMode可以细分“習近平 政府”。 你可以使用 ``和`` 分别指定查询和索引时使用不同的分词策略。

See https://github.com/hankcs/AhoCorasickDoubleArrayTrie/blob/master/src/test/java/TestAhoCorasickDoubleArrayTrie.java#L272

启动后生成/home/macc/solr/dic/phone.txt.bin说明生效,下次修改词典必须先清除这个缓存

1. 对,的确需要重新启动JVM。如果想更优雅地管理词典,需要自己编写额外的维护逻辑:https://github.com/hankcs/HanLP/issues/182 2. HanLP有自己的词典格式,其中空格是作为分隔符用的,请参考:https://github.com/hankcs/HanLP/wiki/FAQ#%E4%B8%BA%E4%BB%80%E4%B9%88%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8%E5%8A%A0%E8%BD%BD%E5%A4%B1%E8%B4%A5 如果词语有空格,要么通过CustomDictionary.add添加,要么修改加载代码中的分隔符。未来版本将允许用户自定义分隔符。