性能问题
我这边直接在npu 256卡上跑 test_sft_trainer_235B.py 没有复现2000+的tokens/s 只有600 tokens/s,可以帮看下原因吗?下面是打出来的环境变量
请问使用的 NPU 具体型号是?
请问使用的 NPU 具体型号是?
A3
@Richie-yan 感谢关注,因为 npu 部分文档的缺失可能对您造成了比较大的困扰
test_sft_trainer_235B.py 是一个在 H800 上做精度回归的脚本,里面的一些参数设置应该在 256 * A3 上跑不起来,比如 pack max length 和 global batch size,需要对应改成 32k 和 512(256 * A3 共有 512 DP)
另外,600 tgs 是 log 中打印的么?因为 A3 是一卡双芯,log 中的 tgs 需要乘 2 才是最终的 tgs
另外,目前版本的 NPU 代码是基于一个还未正式发版的 torch npu 开发的,并且有一些 NPU 特有的环境变量设置,我们正在准备这部分文档以及镜像,您应该是已经通过华为特战队拿到这个镜像了?
600 tgs 是 log 中打印的 这个含义不是step_consumed_tokens / step_time?为啥要再乘2呢? 我这边是拿到了一些镜像依赖的包
tgs
因为tgs是tokens per gpu per second