Chi Zhang

Results 5 comments of Chi Zhang

同问这个问题,head不一致无法计算MSE loss,而且这种情况应该很多,毕竟大模型的head一般会比小模型多是吧,希望官方能给一个解答,谢谢~

我也好奇这个东西是不是没实现