dongcy-AHU issues

Results 7 issues of


                                            dongcy-AHU

Ask the author to answer，thank you！

Hello, may I ask, how is the [CLS] token in multi-layer self-attention initialized? What is its vector dimension?

关于GCN的必要性

您在模型中使用了GCN来获取图中文档节点的表示以进行文本分类。那么使用GCN是否具有必要性，特别是节点之间的高阶邻域信息具体体现在哪里，或可能表现在数据集的哪些特征上？您是否可以解释一下，非常感谢！

GCN新手的求助

您的这篇工作简单地将每个单词或者文本表示成一个one-hot向量作为Text GCN的输入，我是否可以先利用node2vec进行预训练，然后将预训练得到的节点嵌入作为Text GCN的输入？或者利用DeepWalk来学习网络中节点的表示，您是否考虑过这些？结果会不会好一点？

names = ['x','y','tx','ty','allx','ally','adj']分别代表什么？

读了你的源码，关于这些矩阵names = ['x','y','tx','ty','allx','ally','adj']分别代表什么？比如allx => the feature vectors of both labeled and unlabeled training docs/words，你的实验数据不都是有标签的嘛，为什么会有unlabeled training docs？你在论文中说你的节点初始化为one-hot向量，而我在代码中看到你用word嵌入的平均作为doc嵌入输入，这是为什么？the one-hot labels of the labeled training docs又代表什么？关于这些x,y,tx,ty等等，我比较难懂，请求您抽出时间为我解答，非常感谢

关于稀疏邻接矩阵生成的代码问题

**我觉得这里的else：row.append(i + vocab_size)应该改为else：row.append(i + train_size+vocab_size)，对吗？** 这段代码是为doc节点和word节点生成稀疏邻接矩阵的代码，邻接矩阵的大小为train_size + vocab_size + test_size，当doc文本序号i大于train_size时，剩下的不就是test_size大小的文本与单词建立连接吗？test_size在邻接矩阵之前不是有train_size+vocab_size，所以此时是不是文本从train_size+vocab_size开始一一与词建立连接？以下为源码： ``` for i in range(len(shuffle_doc_words_list)): doc_words = shuffle_doc_words_list[i] words = doc_words.split() doc_word_set = set() for word in words:...

关于图构建的问题

你好，在一些短文本中，如AG news，aclImdb等数据集，在一张这种异构图中，word节点的数量是不是就是数据集中的单词的数量，且无重复？document节点是不是就是数据集中每一条短文本？另外，在计算PMI值时，我发现在每一个数据集中的单词表中的单词是无重复的，那么在计算PMI值时，每个单词的PMI值都相同，对吗？那么每个单词，或者单词与文本之间边的权值不都一样了吗？非常希望你能够解答我的问题，谢谢！

The problem of download

你这个项目我下载不下来，下载几分钟就会出现下载失败，我用Google浏览器下载的，是什么原因造成的呢？或者您可以直接发送你的项目至我的邮箱：[email protected]，非常感谢您！