dlrover
dlrover copied to clipboard
xpu timer性能问题
我们在我们的训练任务中尝试测试集成xpu timer,来统计矩阵乘和NCCL的指标。现在发现,在LD_PRELOAD之后,会导致训练时间加长,大概时间延迟7%左右。 训练环境: 2Node,每个Node是8张H20的卡。 训练框架:LlamaFactory nccl版本:NCCL_2.21.5 cuda版本:12.4
想咨询下:这是符合预期的吗,还是有什么特殊的配置或者设定需要注意?