text-cnn icon indicating copy to clipboard operation
text-cnn copied to clipboard

嵌入Word2vec词向量的CNN中文文本分类

Results 20 text-cnn issues
Sort by recently updated
recently updated
newest added

这个模型在生成词表的时候可以去除停用词吗,我使用百度和哈工大的停用词表训练测试集准确率下降了,请问可能是什么原因呢?

您好,非常感谢您的分享~ 但我更换自己的数据集并运行train_word2vec.py重新训练词向量后,text_train.py报错显示: `ValueError: Too many elements provided. Needed at most 512000, but received 800000 ` 后来我将text_model.py的vocab_size和loade.py中的build_vocab(filenames,vocab_dir,vocab_size=5000)均改为5000,重新训练词向量后再运行text_train.py,报错显示: `ValueError: Too many elements provided. Needed at most 320000, but received 500000` 请问我该如何解决这个问题?

你好,你在readme中说每个类别下面为6500条数据,而如今我在官网下载的数据集每个类别下面的数目比这个大很多,都是9w,5w,13w等数量级。我有个疑惑是因为数据集官网一致在增加还是你当时每个类别下边只选择了6500条数据进行实验?(比较小白)

运行text_train.py时出现No optimization over 1000 steps, stop training的字样,请问有人遇到过吗,怎么解决呢

比如我就输入了"啊啊啊啊啊" 怎样都会匹配出来一个标签 但这种应该归类为其他 怎样获取一个分数判断一下

在 text_model.py 文件中的第 **98、99** 行,loss定义了两次 请问 如果使用L2正则化是不是要注释 99 行? ![image](https://user-images.githubusercontent.com/19431702/121630519-e3827f80-caaf-11eb-8e78-c235d6168b72.png)

我训练的时候 一共7个 lable 每个lable在训练集的样本数量都是5000,可以训练好进行模型测试的时候,测试出来的标签都是同一个label(比如全是 手机)

请问作者如果想要将CNN/RNN用于谣言的识别应该怎么去实践?