cnn-text-classification-tf-chinese
cnn-text-classification-tf-chinese copied to clipboard
请问你的中文输入数据格式是什么样的?每行多个词,词之间空格间隔么?
可參考 https://github.com/indiejoseph/cnn-text-classification-tf-chinese/blob/master/data/chinese/neg.txt
谢谢,顺利看到示例数据,但是还有一点小疑问,希望能够得到您的解答。 我见您所给示例中句子里会有一些标点符号,如逗号,空格。但load_data_and_labels()函数中并未对标点符号做清洗,请问这些词在后续建立(词,索引)后,应该会稍微影响模型训练精度吧, 毕竟逗号,空格也作为一个词参与训练了?
因這個用細dataset, 我沒有做清洗,但你可以參考我另一個 project https://github.com/indiejoseph/chinese-char-rnn/blob/master/utils.py
好的,非常感谢,我学习下。