text-cnn
text-cnn copied to clipboard

Published 20 hours ago •

→

Metadata

嵌入Word2vec词向量的CNN中文文本分类

Reame
Issues

Results 20 text-cnn issues

Sort by recently updated

关于去停用词后准确率下降

这个模型在生成词表的时候可以去除停用词吗，我使用百度和哈工大的停用词表训练测试集准确率下降了，请问可能是什么原因呢？

运行text_train.py时报错

2

comment

您好，非常感谢您的分享~ 但我更换自己的数据集并运行train_word2vec.py重新训练词向量后，text_train.py报错显示： `ValueError: Too many elements provided. Needed at most 512000, but received 800000 ` 后来我将text_model.py的vocab_size和loade.py中的build_vocab(filenames,vocab_dir,vocab_size=5000)均改为5000，重新训练词向量后再运行text_train.py，报错显示： `ValueError: Too many elements provided. Needed at most 320000, but received 500000` 请问我该如何解决这个问题？

官网数据集数量与描述不对应

1

comment

你好，你在readme中说每个类别下面为6500条数据，而如今我在官网下载的数据集每个类别下面的数目比这个大很多，都是9w,5w,13w等数量级。我有个疑惑是因为数据集官网一致在增加还是你当时每个类别下边只选择了6500条数据进行实验？（比较小白）

请问用的是TensorFlow 哪个版本？我用的2.x，很多api都不支持了，。。谢谢。

1

comment

运行text_train.py时出现No optimization over 1000 steps, stop training

2

comment

运行text_train.py时出现No optimization over 1000 steps, stop training的字样，请问有人遇到过吗，怎么解决呢

怎样获取分类为某一个标签得概率或者得分呢

比如我就输入了"啊啊啊啊啊" 怎样都会匹配出来一个标签但这种应该归类为其他怎样获取一个分数判断一下

是否没有应用L2正则化？？？

在 text_model.py 文件中的第 **98、99** 行，loss定义了两次请问如果使用L2正则化是不是要注释 99 行？ ![image](https://user-images.githubusercontent.com/19431702/121630519-e3827f80-caaf-11eb-8e78-c235d6168b72.png)

为什么 test的时候，预测结果都是同一个标签？

4

comment

我训练的时候一共7个 lable 每个lable在训练集的样本数量都是5000，可以训练好进行模型测试的时候，测试出来的标签都是同一个label（比如全是手机）

可以把word2vec换成用bert预训练词向量吗

用于谣言识别或检测是否可行

1

comment

请问作者如果想要将CNN/RNN用于谣言的识别应该怎么去实践？

← Metadata

439

Stars

117

Forks

Watchers

Owner

Metadata

嵌入Word2vec词向量的CNN中文文本分类