graph-learn icon indicating copy to clipboard operation
graph-learn copied to clipboard

相同参数情况下 分布式和单机训练模型精度出现差异

Open LucasTsui0725 opened this issue 1 year ago • 1 comments

使用graphlearn v1.1.0中参考代码,将train_supervised的模型训练部分替换到dist_train的worker任务中测试分布式的监督学习任务。训练数据集选择使用ogbn-arxiv并在分布式训练时将点和边均分成两个文件,分布式训练集群配置为2PS-2Worker,其余代码和模型超参保持不变。结果分布式训练的loss下降到1.6左右开始震荡(单机能下降至1左右),请问这种情况如何解决。

LucasTsui0725 avatar Aug 03 '23 12:08 LucasTsui0725