Junhua Ma comments

Results 37 comments of


                                            Junhua Ma

请问下python版是将C++ 封装起来的还是python全部重写的？

重写的，fast_cut和fast_cut_f方法是调用了c++版的.so扩展

请问下python版是将C++ 封装起来的还是python全部重写的？

支持的。链接您是说使用方法么，和普通的cut函数参数一样，只是函数名不同

请问下python版是将C++ 封装起来的还是python全部重写的？

自定义词典只需要新建个文本文件，每行一词即可（有多少词写多少行），然后在初始化参数里指定user_dict="你的文件名"就可以了。操作很简单，没有手册的哈

如何使用用户词典？

#coding:utf-8 import thulac thu1 = thulac.thulac(seg_only=True, user_dict="mydict.txt") #设置模式为行分词模式 a = thu1.cut("我爱北京天安门", text=True) mydict.txt 内容每词一行: 机器学习数据挖掘 ... 我爱北京天安门

如何使用用户词典？

位置不对python应该会直接报一个file not found吧，你试试 for line in open("D:/python/text_preprocessing/dict.txt) 看看内容对不对？还是找不到问题可能是windows和linux/mac环境不同了

自定义字典没起作用

感谢您对THULAC的支持，我们最近根据您的问题更新了版本，问题应该得到了改善

自定义字典没起作用

这个目前确实做不到，由于模型原理的问题，用户词典不能将已经分好的词再次分割

是否可以进行同义词设定？

目前没有这个功能哈

出现 “//” 符号时分词会报错

感谢您对THULAC的支持，您反馈的问题已经解决，更新后忘记及时回复了，抱歉

编译test_case.cpp时头文件出错

感谢您对THULAC的支持。可以提供一下编译环境么，我们在开发环境下确实没有这些错误。另外thulac里并没有thulac_case这个文件或变量，您是指什么？