LLamaTuner
LLamaTuner copied to clipboard
多卡似乎不能将每张卡跑满,请问如何才能让每张卡的计算负载跑满呢
我设置了CUDA_VISIBLE_DEVICE和device_map,在2张A100上跑的时候,发现确实都有内存占用,但是gpu负载总是某张卡高,其他都很低。