xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

性能问题

Open Richie-yan opened this issue 3 months ago • 5 comments

我这边直接在npu 256卡上跑 test_sft_trainer_235B.py 没有复现2000+的tokens/s 只有600 tokens/s,可以帮看下原因吗?下面是打出来的环境变量

Image

Richie-yan avatar Sep 17 '25 08:09 Richie-yan

请问使用的 NPU 具体型号是?

pppppM avatar Sep 18 '25 04:09 pppppM

请问使用的 NPU 具体型号是?

A3

Richie-yan avatar Sep 18 '25 04:09 Richie-yan

@Richie-yan 感谢关注,因为 npu 部分文档的缺失可能对您造成了比较大的困扰

test_sft_trainer_235B.py 是一个在 H800 上做精度回归的脚本,里面的一些参数设置应该在 256 * A3 上跑不起来,比如 pack max length 和 global batch size,需要对应改成 32k 和 512(256 * A3 共有 512 DP)

另外,600 tgs 是 log 中打印的么?因为 A3 是一卡双芯,log 中的 tgs 需要乘 2 才是最终的 tgs

另外,目前版本的 NPU 代码是基于一个还未正式发版的 torch npu 开发的,并且有一些 NPU 特有的环境变量设置,我们正在准备这部分文档以及镜像,您应该是已经通过华为特战队拿到这个镜像了?

pppppM avatar Sep 19 '25 02:09 pppppM

600 tgs 是 log 中打印的 这个含义不是step_consumed_tokens / step_time?为啥要再乘2呢? 我这边是拿到了一些镜像依赖的包

Richie-yan avatar Sep 19 '25 06:09 Richie-yan

tgs

因为tgs是tokens per gpu per second

nil0x9 avatar Sep 20 '25 11:09 nil0x9