汉字如何处理呀？急急急谢啦

Open tangbogreat opened this issue 9 years ago • 5 comments

Aug 12 '16 11:08 tangbogreat

汉字并不需要特别的处理。保证编码是UTF-8/GBK就行（具体是哪个我忘记了，久了没动这个了，您可以试试看）

Aug 15 '16 07:08 hiyijian

我这边数据集都是汉字文本，每一行是： _*1111_今天不错.... 这些汉字需要我们自己使用分词工具将文本分词吗？还是直接作为输入title，不分词?? 谢谢你，最近催得很紧，要崩溃了。

Aug 15 '16 07:08 tangbogreat

当然是需要分词的。比如这个文档 “汉字如何处理呀？急急急谢啦” 那你应该整理成这样： _*123456 汉字如何处理呀？急急急谢啦

Aug 15 '16 07:08 hiyijian

真热心，已经给你star了。能给个QQ或者邮件地址吗？方便交流。谢啦。

Aug 15 '16 07:08 tangbogreat

Aug 15 '16 07:08 hiyijian