xtuner 性能问题

我这边直接在npu 256卡上跑 test_sft_trainer_235B.py 没有复现2000+的tokens/s 只有600 tokens/s，可以帮看下原因吗？下面是打出来的环境变量

Sep 17 '25 08:09 Richie-yan

请问使用的 NPU 具体型号是？

Sep 18 '25 04:09 pppppM

请问使用的 NPU 具体型号是？

A3

Sep 18 '25 04:09 Richie-yan

@Richie-yan 感谢关注，因为 npu 部分文档的缺失可能对您造成了比较大的困扰

test_sft_trainer_235B.py 是一个在 H800 上做精度回归的脚本，里面的一些参数设置应该在 256 * A3 上跑不起来，比如 pack max length 和 global batch size，需要对应改成 32k 和 512（256 * A3 共有 512 DP）

另外，600 tgs 是 log 中打印的么？因为 A3 是一卡双芯，log 中的 tgs 需要乘 2 才是最终的 tgs

另外，目前版本的 NPU 代码是基于一个还未正式发版的 torch npu 开发的，并且有一些 NPU 特有的环境变量设置，我们正在准备这部分文档以及镜像，您应该是已经通过华为特战队拿到这个镜像了？

Sep 19 '25 02:09 pppppM

600 tgs 是 log 中打印的这个含义不是step_consumed_tokens / step_time？为啥要再乘2呢？我这边是拿到了一些镜像依赖的包

Sep 19 '25 06:09 Richie-yan

tgs

因为tgs是tokens per gpu per second

Sep 20 '25 11:09 nil0x9