Junhua Ma

Results 37 comments of Junhua Ma

重写的,fast_cut和fast_cut_f方法是调用了c++版的.so扩展

支持的。链接您是说使用方法么,和普通的cut函数参数一样,只是函数名不同

自定义词典只需要新建个文本文件,每行一词即可(有多少词写多少行),然后在初始化参数里指定user_dict="你的文件名"就可以了。操作很简单,没有手册的哈

#coding:utf-8 import thulac thu1 = thulac.thulac(seg_only=True, user_dict="mydict.txt") #设置模式为行分词模式 a = thu1.cut("我爱北京天安门", text=True) mydict.txt 内容每词一行: 机器学习 数据挖掘 ... 我爱北京天安门

位置不对python应该会直接报一个file not found吧,你试试 for line in open("D:/python/text_preprocessing/dict.txt) 看看内容对不对? 还是找不到问题可能是windows和linux/mac环境不同了

感谢您对THULAC的支持,我们最近根据您的问题更新了版本,问题应该得到了改善

这个目前确实做不到,由于模型原理的问题,用户词典不能将已经分好的词再次分割

目前没有这个功能哈

感谢您对THULAC的支持,您反馈的问题已经解决,更新后忘记及时回复了,抱歉

感谢您对THULAC的支持。可以提供一下编译环境么,我们在开发环境下确实没有这些错误。另外thulac里并没有thulac_case这个文件或变量,您是指什么?