sean

Results 2 issues of sean

I use megablocks to implement a fine-granded moe, the ffn_hidden_size is divisible by 64, but is not divisible by 128, can we change it to 64? Thanks a lot

训练的时候,发现启用不同的attn implement, 对loss有比较大的影响 定位发现,同样的q,k,v 输入值,flash attn 和core attn的输出相差较大, 且attn_mask为false的token, flash attn输出的是全0向量,但core attn输出的是一个正常向量, 不算这个0向量的话,flash attn和core attn输出的output token 相似度低的也有到0.8左右,不知道是否符合预期?感谢!