THULAC-Python icon indicating copy to clipboard operation
THULAC-Python copied to clipboard

为什么在本地分词的效果没有在线demo上的精准

Open smilezcc opened this issue 8 years ago • 2 comments

像 “配置没得说 很好了!但是因为上一代note3的存在,如果note4超4800那性价比真的一般般!" 在demo上 “配置_v 没_d 得_vm 说_v 很_d 好_a 了_u !_w 但是_c 因为_c 上一代_n note3_x 的_u 存在_v ,_w 如果_c note4_x 超_v 4800_m 那_r 性_k 价_n 比_p 真的_a 一般_a 般_n !_w” note3和note4是分成一个整体的, 但是在本地分词则是 “但是_c 因为_c 上一代_n note_x 3_m 的_u 存在_v ,_w 如果_c note_x 4_m 超_v 4800_m 那_r 性_k 价_n 比_p 真_a 的_u 一_d 般_a 般_n !_w”

还有像魅族,在本地也被分开,还有就是涉及到数字和字母组合的,像2.5D屏幕,在本地也被分成 “加上_v 2_m ._w 5_m D_x 的_u 屏幕_n ,_w 整体_n 大气_n 。_w” 我用的是经过资源申请表后下载的模型,THULAC_pro_c++_v1里的models, 但是效果和在线演示的差距很明显,本地类似的情况分词结果基本都一致,全分散开了。这个是我配置的问题呢,还是版本没对应好, 还请指点迷津

smilezcc avatar Oct 21 '17 13:10 smilezcc

plus one !!! even worse than jieba!!!

patrick-g-zhang avatar Nov 03 '17 01:11 patrick-g-zhang

非常感谢使用thulac,由于之前功能的添加,造成了python和C++的一些差异,我们会在下周修复

gzp9595 avatar Nov 03 '17 06:11 gzp9595