CEDI-DataVault

Results 2 comments of CEDI-DataVault

> 4bit量化与deepspeed zero3是不兼容的,你咋跑的? 可能没说清,我使用deepspeed zero3+lora出现hang,无法计算loss。使用deepspeed zero2 4bit量化可以微调,没出现问题。

我怀疑是通讯问题,有的伙伴升级了nccl后,deepspeed zero3+lora跑到中途会出现Invalidate trace cache @ step 738: expected module 752, but got module 784,然后继续hang。 我这边没有nvlink,哪个伙伴试一下:export NCCL_P2P_LEVEL=NVL,如果设置完环境能跑通deepspeed zero3+lora记得拍一下我。