BertGCN icon indicating copy to clipboard operation
BertGCN copied to clipboard

build_graph中shuffle部分好像有数据泄露

Open ydwasd opened this issue 1 year ago • 6 comments

ydwasd avatar May 24 '23 01:05 ydwasd

测试集使用训练集数据还说的通,但是看源码,训练的时候也使用了测试集的数据,这样会造成数据泄露吗?

mengfanxiao777 avatar May 25 '23 08:05 mengfanxiao777

节点分类问题本来就是可见测试数据节点的啊,这也是与前面TextGCN等工作保持一致的基本设定。 当然,不同于TextGCN,引入了文本embedding之后理论上确实可以使得这个方法能扩展到训练时未见的graph上就是了,有兴趣看看效果的话可以自己做下。

ZeroRin avatar May 25 '23 08:05 ZeroRin

今天我组会汇报了这篇文章,我也说19年的TextGCN就是这样做的,但是老师说,如果训练的时候可以看到测试信息应该会信息泄露,并且实际情况中用模型预测新数据,新数据是不会出现在训练集的。难道这种图节点分类问题不适合现实应用吗?其实我已经跑过这个代码了,效果确实好,可是今天被老师这么一说,深受打击。

mengfanxiao777 avatar May 25 '23 08:05 mengfanxiao777

原理上这个模型是可以用在使用同样方式建立的所有节点都没见过的新图上的。相对的,原版TextGCN使用onehot初始表征,相当于让模型给每个节点凭空学了一个embedding,原理上是无法扩展的。本身是有计划对这方面进一步探究的,但后来因为研究方向调整就没有再继续了。 我记得在中稿之后我曾经尝试过训练时只使用训练集构图,测试时使用训练集+测试集构图,性能指标上基本没有差异,但差别更大的图情况下效果就不清楚了。

ZeroRin avatar May 25 '23 08:05 ZeroRin

训练时只使用训练集构图,测试时使用训练集+测试集构图,实现上是通过训练结束后把训练集图的特征矩阵和邻接矩阵保留下,然后再图中加入测试集数据,然后用于测试是吗?还是万分感谢作者的回答。

mengfanxiao777 avatar May 25 '23 08:05 mengfanxiao777

细节已经记不清了,应该差不多吧

ZeroRin avatar May 25 '23 08:05 ZeroRin