Junhua Ma

Results 37 comments of Junhua Ma

不知道这个问题您解决了没有,找不到的话您可以检查下模型文件是放在DFS上还是本地的文件系统上了

谢谢您对THULAC的支持,python2中直接打印list的话其中的中文确实会变为byte字符,语句print ["我"]也会有相同的效果。需要看文字结果可以使用cut(text=True)哈。

感谢您对THULAC的支持,分词工具毕竟是通过基于统计的方法训练的模型, 我们不能保证对于每个句子都能处理成最符合预想的结果。不过我们相信对于很多另外的句子,我们的结果会比结巴好的:)

Thanks for your issue! We have fixed this bug.

感谢您对thulac的支持,您可以把具体的报错信息贴上来我们看下是什么原因。另外词典用于分词最后的后处理阶段,使分好的词与用户词典匹配。我们的模型中是不包含词典的,模型完全通过概率计算最可能的分词结果,词典只是作为修正

感谢您对thulac的支持,python本身效率不高,而且文本处理又没有很好的矩阵并行化计算方法,所以原生的cut函数效率较慢,当然也和我们的模型本身比较复杂有关。如果需要处理大文本还是建议使用fast_cut方法来调用so扩展

感谢您对THUALC的支持,这个bug我们复现不出来,一般进程被killed是由于内存不足,我们的分词加词性标注模型需要500m以上的内存加载,您可以看看是不是这方面的问题~

感谢您的反馈!是上个版本的更新问题,上个版本我们把程序从处理整个文本文件改为了按行处理,因此.so文件在处理每一行的时候都做了初始化,刚才我们已经将这个问题改过来了。非常感谢!

感谢提出!已修改