text_gcn icon indicating copy to clipboard operation
text_gcn copied to clipboard

关于图构建的问题

Open dongcy-AHU opened this issue 5 years ago • 2 comments

你好,在一些短文本中,如AG news,aclImdb等数据集,在一张这种异构图中,word节点的数量是不是就是数据集中的单词的数量,且无重复?document节点是不是就是数据集中每一条短文本? 另外,在计算PMI值时,我发现在每一个数据集中的单词表中的单词是无重复的,那么在计算PMI值时,每个单词的PMI值都相同,对吗?那么每个单词,或者单词与文本之间边的权值不都一样了吗? 非常希望你能够解答我的问题,谢谢!

dongcy-AHU avatar Jun 29 '19 14:06 dongcy-AHU

@dongcy-AHU

你好。

问:word节点的数量是不是就是数据集中的单词的数量,且无重复?

答:是的

问:document节点是不是就是数据集中每一条短文本?

答:是的

问:那么在计算PMI值时,每个单词的PMI值都相同,对吗?

答:对于一个数据集来说,每一对单词的PMI相同,假设词表大小是2000,则有2000*1999对PMI值(不包括本身,邻接矩阵对角线设为1), PMI值是在整个数据集上计算出来的。这些值对一个数据集中的文档来说,是全局变量。

问:单词与文本之间边的权值不都一样了吗?

答: 单词与文档之间边的权值是TF-IDF,TF是单词在文档中出现次数。IDF是数据集中包含单词文档个数的倒数取log。因此对于每个(单词-文档)对来说,权值不一样。

yao8839836 avatar Jul 01 '19 22:07 yao8839836

@dongcy-AHU

①在构建图时,把整个词汇表中的单词都两两建立边,并不是部分建立的,对吗?

是部分建立,虽然两两之间都要计算PMI,但只有PMI>0的词对才建立边。其他权重为0。

②假设词表大小是2000,由于构建的是无向图,其邻接矩阵应该是对称的,去除对角线的值固定为1,实际应该只有2000*1999/2对PMI值,对吗?

对,2000*1999/2对PMI值中大部分小于等于0,只为大于0的词对构建边。

③文档之间的边的权重固定为0,即没有边的连接,对吗?

yao8839836 avatar Jul 03 '19 19:07 yao8839836