很小一颗星

Results 2 comments of 很小一颗星

好的,我再去研究研究

好吧,其实并不是过拟合的问题,而是训练和推理时模型的超参数不匹配导致的。训练时采用的MultiheadAttention的num_heads为4,而推理时采用的num_heads却是2,从而导致的推理结果差。。。