text_gcn 关于图构建的问题

你好，在一些短文本中，如AG news，aclImdb等数据集，在一张这种异构图中，word节点的数量是不是就是数据集中的单词的数量，且无重复？document节点是不是就是数据集中每一条短文本？另外，在计算PMI值时，我发现在每一个数据集中的单词表中的单词是无重复的，那么在计算PMI值时，每个单词的PMI值都相同，对吗？那么每个单词，或者单词与文本之间边的权值不都一样了吗？非常希望你能够解答我的问题，谢谢！

Jun 29 '19 14:06 dongcy-AHU

@dongcy-AHU

你好。

问：word节点的数量是不是就是数据集中的单词的数量，且无重复？

答：是的

问：document节点是不是就是数据集中每一条短文本？

答：是的

问：那么在计算PMI值时，每个单词的PMI值都相同，对吗？

答：对于一个数据集来说，每一对单词的PMI相同，假设词表大小是2000，则有2000*1999对PMI值（不包括本身，邻接矩阵对角线设为1）， PMI值是在整个数据集上计算出来的。这些值对一个数据集中的文档来说，是全局变量。

问：单词与文本之间边的权值不都一样了吗？

答：单词与文档之间边的权值是TF-IDF，TF是单词在文档中出现次数。IDF是数据集中包含单词文档个数的倒数取log。因此对于每个（单词-文档）对来说，权值不一样。

Jul 01 '19 22:07 yao8839836

@dongcy-AHU

①在构建图时，把整个词汇表中的单词都两两建立边，并不是部分建立的，对吗？

是部分建立，虽然两两之间都要计算PMI，但只有PMI>0的词对才建立边。其他权重为0。

②假设词表大小是2000，由于构建的是无向图，其邻接矩阵应该是对称的，去除对角线的值固定为1，实际应该只有2000*1999/2对PMI值，对吗？

对，2000*1999/2对PMI值中大部分小于等于0，只为大于0的词对构建边。

③文档之间的边的权重固定为0，即没有边的连接，对吗？

对

Jul 03 '19 19:07 yao8839836

text_gcn text_gcn copied to clipboard

关于图构建的问题

text_gcn
text_gcn copied to clipboard