cnn-text-classification-tf-chinese icon indicating copy to clipboard operation
cnn-text-classification-tf-chinese copied to clipboard

请问你的中文输入数据格式是什么样的?每行多个词,词之间空格间隔么?

Open danglei912 opened this issue 7 years ago • 4 comments

danglei912 avatar Apr 11 '17 13:04 danglei912

可參考 https://github.com/indiejoseph/cnn-text-classification-tf-chinese/blob/master/data/chinese/neg.txt

indiejoseph avatar Apr 11 '17 13:04 indiejoseph

谢谢,顺利看到示例数据,但是还有一点小疑问,希望能够得到您的解答。 我见您所给示例中句子里会有一些标点符号,如逗号,空格。但load_data_and_labels()函数中并未对标点符号做清洗,请问这些词在后续建立(词,索引)后,应该会稍微影响模型训练精度吧, 毕竟逗号,空格也作为一个词参与训练了?

danglei912 avatar Apr 11 '17 14:04 danglei912

因這個用細dataset, 我沒有做清洗,但你可以參考我另一個 project https://github.com/indiejoseph/chinese-char-rnn/blob/master/utils.py

indiejoseph avatar Apr 11 '17 14:04 indiejoseph

好的,非常感谢,我学习下。

danglei912 avatar Apr 12 '17 02:04 danglei912