Chi Zhang
Results
5
comments of
Chi Zhang
同问这个问题,head不一致无法计算MSE loss,而且这种情况应该很多,毕竟大模型的head一般会比小模型多是吧,希望官方能给一个解答,谢谢~
> Thanks, so helpful
I can run this script successfully on CUDA 11.3 Pytorch 1.12.0
我也好奇这个东西是不是没实现