Junhua Ma comments

Results 37 comments of


                                            Junhua Ma

不知道这个问题您解决了没有，找不到的话您可以检查下模型文件是放在DFS上还是本地的文件系统上了

谢谢您对THULAC的支持，python2中直接打印list的话其中的中文确实会变为byte字符，语句print ["我"]也会有相同的效果。需要看文字结果可以使用cut(text=True)哈。

感谢您对THULAC的支持，分词工具毕竟是通过基于统计的方法训练的模型，我们不能保证对于每个句子都能处理成最符合预想的结果。不过我们相信对于很多另外的句子，我们的结果会比结巴好的:)

Thanks for your issue! We have fixed this bug.

感谢您对thulac的支持，您可以把具体的报错信息贴上来我们看下是什么原因。另外词典用于分词最后的后处理阶段，使分好的词与用户词典匹配。我们的模型中是不包含词典的，模型完全通过概率计算最可能的分词结果，词典只是作为修正

感谢您对thulac的支持，python本身效率不高，而且文本处理又没有很好的矩阵并行化计算方法，所以原生的cut函数效率较慢，当然也和我们的模型本身比较复杂有关。如果需要处理大文本还是建议使用fast_cut方法来调用so扩展

感谢您对THUALC的支持，这个bug我们复现不出来，一般进程被killed是由于内存不足，我们的分词加词性标注模型需要500m以上的内存加载，您可以看看是不是这方面的问题~

感谢您的反馈！是上个版本的更新问题，上个版本我们把程序从处理整个文本文件改为了按行处理，因此.so文件在处理每一行的时候都做了初始化，刚才我们已经将这个问题改过来了。非常感谢！

感谢提出！已修改

fask_cut目前不支持windows哈