dlrover icon indicating copy to clipboard operation
dlrover copied to clipboard

xpu timer性能问题

Open lzfhust opened this issue 7 months ago • 0 comments

我们在我们的训练任务中尝试测试集成xpu timer,来统计矩阵乘和NCCL的指标。现在发现,在LD_PRELOAD之后,会导致训练时间加长,大概时间延迟7%左右。 训练环境: 2Node,每个Node是8张H20的卡。 训练框架:LlamaFactory nccl版本:NCCL_2.21.5 cuda版本:12.4

想咨询下:这是符合预期的吗,还是有什么特殊的配置或者设定需要注意?

lzfhust avatar May 09 '25 08:05 lzfhust