doc2vec
doc2vec copied to clipboard
汉字如何处理呀?急急急谢啦
汉字并不需要特别的处理。保证编码是UTF-8/GBK就行(具体是哪个我忘记了,久了没动这个了,您可以试试看)
我这边数据集都是汉字文本,每一行是: _*1111_今天不错.... 这些汉字需要我们自己使用分词工具将文本分词吗?还是直接作为输入title,不分词?? 谢谢你,最近催得很紧,要崩溃了。
当然是需要分词的。比如这个文档 “汉字如何处理呀?急急急谢啦” 那你应该整理成这样: _*123456 汉字 如何 处理 呀 ? 急 急 急 谢啦
真热心,已经给你star了。能给个QQ或者邮件地址吗?方便交流。谢啦。